Eu tenho uma triste matriz RAID em uma placa 3ware 9650SE-16ML. O que não sei dizer é se sofri uma falha no disco duplo (chatice!) Ou se estou lendo isso errado. A saída relevante de /c0 show all
é:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
E a falha é (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Eu acho que o que aconteceu foi p0 falhou e, em seguida, p1 teve um erro de ECC (ou seja, meus dados sumiram). Mas ... talvez não? Ele permanece em 97% reconstruído, mas não pode passar por esse erro.
Até onde eu sei, um administrador anterior desativou a verificação periódica, e foi isso que nos levou a esse estado. Isso não é algo com o qual a maioria das pessoas deve se preocupar com seus RAIDs 3Ware!
Atualizar
Depois de bater nele por alguns dias, fiz o bit IgnoreECC e ele foi reconstruído, mas meus dados são processados. Vadio.
Respostas:
Erro de ECC significa que há pelo menos um setor ilegível na unidade. No entanto, se você tiver sorte, esse setor pode não ser realmente usado pelo sistema de arquivos localizado nesse volume; portanto, você ainda poderá copiar seus dados da matriz nesse estado.
Existem também algumas opções para ignorar erros de ECC durante a reconstrução:
No entanto, o uso dessas opções significa que a faixa RAID afetada por um setor defeituoso será corrompida (não tem certeza do que exatamente o cartão fará nesse caso - ela pode substituir a faixa inteira por zeros ou mesmo dados aleatórios); portanto, o " recuperado ”pode realmente ter corrupção indetectável (se a faixa afetada estiver no meio de algum arquivo de dados). Copiar seus dados da matriz para outro local antes de tentar reconstruir pode ser mais seguro (pelo menos você deve obter erros ao tentar ler a área incorreta).
Você deve configurar a verificação programada da matriz para capturar setores ilegíveis anteriormente, para poder substituir uma unidade que começou a ficar ruim.
fonte
Nunca experimentei uma unidade física (p0) para entrar no status DEGRADED; no entanto, você poderá recuperar a unidade ECC-ERROR ou até a unidade DEGRADED removendo-as por meio de
e, em seguida, emitindo uma nova varredura
colocá-los de volta na unidade de ataque via
Unidades SATA que falharam com o ECC-ERROR, consegui ressuscitar, mesmo que apenas por algumas horas, antes de falhar novamente.
fonte
É muito provável que seus dados se foram. Erro ECC significa um erro irrecuperável durante a leitura deste disco.
Se você não tiver um backup, tente despejar o estado atual da matriz. Isso pode ser possível porque o controlador não sabe se perdeu dados ou apenas uma área vazia (não possui informações sobre o sistema de arquivos).
fonte