DL380 G5, RAID5, ext3, RAID com falha

9

Temos um servidor HP DL380G5 antigo, com 5 discos SCSI de 3,5 GB de 3,5 '' em uma matriz RAID5, em um compartimento externo, formatado como um volume lógico com sistema de arquivos ext3, que hospeda 1,2 TB de dados sensíveis de pacientes clínicos.

Dois discos mostraram falha preditiva no hpacucli, então substituí um deles primeiro e vi que estava OK, mas não vi que ele também indica "Pronto para reconstruir". Também mudei totalmente o segundo de forma descuidada, e agora diz que o RAID falhou.

Devolvi o disco antigo, tentei reiniciar o servidor, mas ele agora me coloca no modo de recuperação durante a inicialização e diz que não consegue encontrar o volume lógico.

Qualquer coisa que eu possa fazer para tentar restaurar isso? Infelizmente, não temos um backup. Qualquer ajuda seria realmente apreciada!

Eu estava pensando em retornar as duas antigas unidades de volta, existe alguma chance de isso reviver o RAID?

por baixo
fonte
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
Michael Hampton
4
Eu imagino que seu grupo começará a fazer backups agora. Se alguma vez foi uma questão de necessidade ou custo, essa seria uma advertência bastante clara.
Jonathon Reinhart

Respostas:

25

Eu sinto Muito. Mas isso é erro do operador.

Você tinha dois discos com falha em uma matriz RAID5 e removeu mais discos do que a matriz podia suportar.

Fazer isso sem backups é o maior erro.

Você deve entrar em contato com uma empresa de recuperação de dados para tentar recuperar os dados da unidade lógica quebrada.

ewwhite
fonte
1
Parece que ele está sabe que é um erro do operador ... Isso não é uma razão para não perguntar o que ele pode fazer agora
StarWeaver
@ StarWeaver Sim ... entrar em contato com uma empresa de recuperação de dados é o próximo passo apropriado.
ewwhite
11

Não ligue o sistema novamente. Desligue, ligue para um serviço de recuperação de dados. Existem vários serviços que permitem a recuperação remota desse tipo de falha. Neste ponto, tudo o que você pode fazer é piorar.

Isso geralmente envolve conectar todas as unidades diretamente a um HBA em bom estado (não uma placa RAID ou outro controlador!) E iniciar uma imagem linux específica para download com ferramentas de gerenciamento remoto. A empresa acessa remotamente o sistema, avalia o status do disco e recupera os metadados RAID restantes. Usando software proprietário, eles podem remontar um disco RAID virtual (detalhe técnico: geralmente algo que se conecta ao sistema mapeador de dispositivos Linux padrão). Isso expõe o software RAID somente leitura (sem acelerador RAID SoC). As próximas etapas são verificar se os dados não estão corrompidos além do uso e clonar o disco virtual em um novo disco para concluir a recuperação dos dados. Depois disso, você pode se preocupar em colocar o sistema em funcionamento novamente.

Enquanto eu não vou citar nenhum serviço aqui, a maioria deles é fácil de encontrar, e para aqueles com serviços remotos (poupando a viagem de ida e volta do envio das unidades RAID + unidade de recuperação para eles e aguardando a recuperação + clone e depois eles os enviam de volta), você obtém o benefício dos dados que nunca saem de suas instalações.


Uma pequena quantidade de boas notícias: contanto que o controlador RAID (ou você) não grave nenhum dado novo em nenhum dos discos, e o aviso de pré-falha não seja um aviso de falha, há praticamente uma chance de 99,9999% uma boa equipe de recuperação de dados pode restaurar tudo, e razoavelmente rápido também.

John Keates
fonte
5

Re: restaurar as unidades antigas.

Como o seu RAID está completamente morto do jeito que está, você tem pouco a perder reajustando as duas unidades de pré-falha.

Instale-os nas baias originais.

Lembre-se de que eles são anteriores à falha e não falharam completamente, portanto há uma chance razoável de que eles funcionem por tempo suficiente para recuperar seus dados.

Há uma chance do ataque simplesmente não aparecer, e uma pequena chance do controlador pedir para "redefinir" o ataque (escolha NÃO / CANCELAR) e uma pequena chance do controlador do ataque atacar automaticamente o ataque, o que negaria qualquer valor adicionado por uma empresa de recuperação de dados.

Portanto, sua principal prioridade, se o RAID aparecer, é obter os dados. Isso significa ter, pelo menos, 1,2 espaço TB disponível e pronto para copiar dados off, e uma ferramenta como robocopyou xcopy32ou no seu caso linux rsync pronto para ser executado. Você não quer perder tempo lendo páginas de manual e descobrindo a sintaxe se suas unidades estiverem desperdiçando seus últimos minutos.


Quando seus dados estiverem seguros, recrie o ataque como um ataque6 com as novas unidades. Você reduzirá 300 GB de capacidade, mas obterá uma tolerância de duas unidades. Ou adicione uma unidade adicional e considere um raid10 com mais de 6 unidades. Ou considere desativar a máquina completamente; o G5 tem mais de 10 anos e não é mais adequado para tarefas importantes de produção.

E não tentando colocar a inicialização, mas configure também uma solução de backup adequada. Haverá uma próxima vez.

Criggie
fonte
2
Apenas para esclarecer - há uma chance pequena, mas não nula, de que isso dificulte qualquer empresa comercial de recuperação de dados para ajudá-lo. Pessoalmente, eu tentaria remontar o ataque e, se isso não funcionar, faça um balanço.
Criggie