HP SmartArray P400: Como reparar uma unidade lógica com falha?

8

Eu tenho um servidor HP com controlador SmartArray P400 (incl. Cache de 256 MB / backup de bateria) com uma unidade lógica com unidade física com falha substituída que não é reconstruída.

É assim que parecia quando eu detectei o erro:

~ # / usr / sbin / hpacucli slot ctrl = 0 show config
Matriz inteligente P400 no slot 0 (incorporado) (sn: XXXX)

  matriz A (SATA, espaço não utilizado: 0 MB)
    unidade lógica 1 (698,6 GB, RAID 1, OK)
      unidade física 1I: 1: 1 (porta 1I: caixa 1: compartimento 1, SATA, 750 GB, OK)
      unidade física 1I: 1: 2 (porta 1I: caixa 1: compartimento 2, SATA, 750 GB, OK)

  matriz B (SATA, espaço não utilizado: 0 MB)
    unidade lógica 2 (2,7 TB, RAID 5, com falha)
      unidade física 1I: 1: 3 (porta 1I: caixa 1: compartimento 3, SATA, 750 GB, OK)
      unidade física 1I: 1: 4 (porta 1I: caixa 1: compartimento 4, SATA, 750 GB, OK)
      unidade física 2I: 1: 5 (porta 2I: caixa 1: compartimento 5, SATA, 750 GB, OK)
      unidade física 2I: 1: 6 (porta 2I: caixa 1: compartimento 6, SATA, 750 GB, com falha)
      unidade física 2I: 1: 7 (porta 2I: caixa 1: compartimento 7, SATA, 750 GB, OK)

  não atribuído
      unidade física 2I: 1: 8 (porta 2I: caixa 1: compartimento 8, SATA, 750 GB, OK)
~ # 

Eu pensei que tinha a unidade 2I: 1: 8 configurada como sobressalente para a Matriz A e a Matriz B, mas parece que não era esse o caso :-(. Percebi o problema devido a erros de E / S no host, mesmo se apenas 1 unidade física do RAID5 falhou.

Alguém sabe por que isso pode acontecer? O drive lógico deve entrar no modo "Degradado", mas ainda estar totalmente acessível a partir do sistema operacional host !?

Primeiro tentei adicionar a unidade 2I: 1: 8 não atribuída como sobressalente à unidade lógica 2, mas isso não foi possível:

~ # / usr / sbin / hpacucli slot ctrl = 0 matriz B adicionar peças = 2I: 1: 8
    Erro: Esta operação não é suportada com a configuração atual.
    Use o comando "show" nos dispositivos para mostrar detalhes adicionais 
    sobre a configuração.
~ #  

Curiosamente, é possível adicionar a unidade não atribuída à primeira matriz sem problemas. Eu pensei que talvez o controlador colocasse a matriz no estado "com falha" devido à falta de reposição e proteja as matrizes com falha da modificação. Então tentei reativar o drive lógico (para adicionar o sobressalente depois):

~ # / usr / sbin / hpacucli slot ctrl = 0 ld 2 modificar reativar
    Aviso: Quaisquer dados existentes anteriormente na unidade lógica podem não 
    ser válido ou recuperável. Continuar? (s / n) s

    Erro: Esta operação não é suportada com a configuração atual.
    Use o comando "show" nos dispositivos para mostrar detalhes adicionais
    sobre a configuração.
~ # 

Mas como você pode ver, não foi possível reativar a unidade lógica.

Agora substituí a unidade com falha, trocando-a com a unidade não atribuída. O status agora fica assim:

~ # / usr / sbin / hpacucli slot ctrl = 0 show config
Matriz inteligente P400 no slot 0 (incorporado) (sn: XXXX)

  matriz A (SATA, espaço não utilizado: 0 MB)
    unidade lógica 1 (698,6 GB, RAID 1, OK)
      unidade física 1I: 1: 1 (porta 1I: caixa 1: compartimento 1, SATA, 750 GB, OK)
      unidade física 1I: 1: 2 (porta 1I: caixa 1: compartimento 2, SATA, 750 GB, OK)

  matriz B (SATA, espaço não utilizado: 0 MB)
    unidade lógica 2 (2,7 TB, RAID 5, com falha)
      unidade física 1I: 1: 3 (porta 1I: caixa 1: compartimento 3, SATA, 750 GB, OK)
      unidade física 1I: 1: 4 (porta 1I: caixa 1: compartimento 4, SATA, 750 GB, OK)
      unidade física 2I: 1: 5 (porta 2I: caixa 1: compartimento 5, SATA, 750 GB, OK)
      unidade física 2I: 1: 6 (porta 2I: caixa 1: compartimento 6, SATA, 750 GB, OK)
      unidade física 2I: 1: 7 (porta 2I: caixa 1: compartimento 7, SATA, 750 GB, OK)
~ # 

A unidade lógica ainda não está acessível. Por que não está reconstruindo?

O que eu posso fazer?

Para sua informação, esta é a configuração do meu controlador:

~ # / usr / sbin / hpacucli slot ctrl = 0 mostra
 Matriz inteligente P400 no slot 0 (incorporado)
  Interface de barramento: PCI
  Slot: 0
  Número de série: XXXX
  Número de série do cache: XXXX
  Status do RAID 6 (ADG): ativado
  Status do Controlador: OK
  Slot do chassi:
  Revisão de hardware: Rev E
  Versão de firmware: 5.22
  Prioridade de reconstrução: média
  Expandir Prioridade: Média
  Atraso na digitalização de superfície: 15 segundos
  Notificação de inconsistência da análise de superfície: desativada
  Buffer de gravação Raid1: desativado
  Tempo limite do prompt de postagem: 0 s
  Presente da placa de cache: True
  Status do cache: OK
  Relação do acelerador: 25% de leitura / 75% de gravação
  Cache de gravação da unidade: desativado
  Tamanho total do cache: 256 MB
  Cache de gravação sem bateria: desativado
  Fonte de alimentação para backup em cache: baterias
  Contagem de Bateria / Capacitor: 1
  Status da bateria / capacitor: OK
  SATA NCQ suportado: True
~ # 

Obrigado por ajudar com antecedência.

TegtmeierDE
fonte

Respostas:

5

A resposta não é agradável. Há uma alta probabilidade de que sua matriz esteja no estado "aguardando reconstrução", onde há outro disco com falha no conjunto de matrizes RAID5 que impede a conclusão da recuperação. É por isso que você deve evitar o RAID5 atualmente . Não ajuda que estas sejam unidades SATA ... A probabilidade de problemas é ainda maior. Tente desligar o sistema (deixando as unidades girarem para baixo) e ligá-lo novamente. Siga as instruções na tela de matriz do BIOS e escolha a F2opção para "reativar todas as unidades lógicas". Isso pode iniciar o processo de reconstrução.

Caso contrário, é uma reconstrução / recuperação com novos discos.

ewwhite
fonte
0

Você deve inicializar no ACU e ver o que exatamente está acontecendo. se toda a unidade lógica estiver inacessível, você poderá reativá-la lá.

Kly
fonte