Recuperar de uma matriz RAID perfurada

10

aqui está a minha situação.

Eu tenho um servidor Dell com um controlador Dell Perc 7i (controlador LSI).

Eu tinha um drive me dando um aviso de falha prevista, então liguei para o suporte e eles saíram e substituíram o drive e a matriz foi reconstruída, um padrão bastante comum.

Duas semanas depois, tenho outra unidade, me dando o aviso de falha prevista. Achei que talvez fosse um lote ruim de unidades ou coincidência, etc. Então, entre em contato com o suporte e analise com mais profundidade. Percebo que havia blocos defeituosos em uma das outras unidades que não falharam e esses blocos defeituosos foram copiados durante a reconstrução. Então agora eu tenho blocos ruins por todo o lado e eles estão lentamente matando minha matriz. Eu descobri que isso é chamado de matriz perfurada.

Portanto, o conselho deles era substituir todas as unidades, reconstruir a matriz e restaurar do backup. Exceto que eu tenho esse problema há algumas semanas, o que significa que meus backups estão com problemas ... e se eu restaurar a partir de um backup anterior (um mês atrás), perderei cerca de 4 semanas de dados do meu banco de dados que é totalmente inaceitável para o nosso escritório.

Minha pergunta é ... alguém já se recuperou de algo assim sem ter que perder dados ou sem a abordagem geral (jogue tudo pela janela e comece de novo)?

Eu encontrei um link que cobria meu cenário, não tenho certeza se ele esclarece a situação: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Qualquer ajuda ou direção seria apreciada ! O que é que vocês acham?

user72593
fonte

Respostas:

15

Presumo que seu sistema ainda esteja ativo, portanto, a melhor coisa a fazer é fazer um backup imediato , despejar os discos / array, reconstruir e restaurar a partir do backup.

Bloqueios ruins nem sempre significam que seus backups também são ruins. Se você não teve problemas de desempenho ou arquivos danificados, seus backups ainda devem estar completos o suficiente para concluir uma restauração.

Para testar, faça o backup mais recente e examine os dados mais importantes. Se ainda estiver intacto, você provavelmente terá um bom backup.

Nesse momento, há um risco envolvido, pois você não pode ter 100% de certeza de que seus backups são bons ou que o backup agora não causará perda de arquivo. No entanto, sua matriz irá eventualmente falhar e forçar uma restauração de qualquer maneira, por isso esta é a sua única opção real.

Nathan C
fonte
Entendo, agora tudo parece estar funcionando bem. Portanto, se eu sou capaz de fazer um backup completo do meu sistema agora e substituir as unidades, reconstruir a matriz e restaurar esse backup completo ... Estou arriscando essa falha de volta? Ou é melhor reinstalar o SO e o software e restaurar apenas os bancos de dados para minimizar os riscos?
User72593 22/05
Blocos incorretos normalmente não ocorrem no nível do arquivo. Eu só faria isso se você encontrasse arquivos corrompidos.
Nathan C
@NathanC Você não recebe "bad blocks", você obtém dados corrompidos.
22414 JamesRyan
@ user72593 Só porque você pode fazer backup dos arquivos hoje não significa que eles não terão partes ausentes. A única maneira de ver o que é bom ou não é compará-lo com os backups.
22414 JamesRyan
1
@JamesRyan Os "bad blocks" podem estar em qualquer lugar do disco, incluindo swap, arquivos temporários ou espaço usado anteriormente, mas agora não utilizado. Quando uma unidade tem blocos defeituosos, isso nem sempre significa que os dados foram perdidos.
Nathan C
8

Nesse instante, faça o seguinte:

  • Pare de girar backups ou excluir os antigos deste sistema. Você deseja manter todos os backups que você possui atualmente.
  • Faça um backup completo do servidor.

Esperamos que os discos ainda sejam bons o suficiente para que seus dados estejam intactos e você não encontre nenhum problema ao executar o novo backup completo.

Em seguida, descarte esses discos e crie uma nova matriz RAID. Quando estiver pronto, tente restaurar a partir do backup que você fez agora. Com alguma sorte, será tudo o que você precisa fazer.

Se isso falhar, tente o próximo mais antigo, o próximo mais antigo etc. Certifique-se de testar a funcionalidade do sistema - apenas porque ele inicializa, não significa que esteja totalmente operacional. Particularmente, teste os bancos de dados quanto à corrupção.

Se você tivesse que restaurar o sistema inteiro a partir de um backup antigo, tudo bem. Faça os backups mais recentes e restaure apenas os arquivos de banco de dados e outros arquivos importantes. Teste-os para garantir que eles funcionem corretamente. Novamente, se isso falhar, tente o próximo mais antigo.

O uso desse processo minimiza a perda de dados.

Conceder
fonte
Entendo, isso responde à minha pergunta. Então, enquanto meu backup estiver intacto, eu sou bom, se não, então ... eu tenho que lidar com isso. Obrigado.
User72593 22/05
4

As respostas fornecidas por Grant e Nathan C são ótimas em relação a como você deve proceder ao lidar com backups / restauração e abordar a integridade dos dados.

Aqui estão alguns detalhes mais claros sobre como lidar com o conjunto de RAID na hora de recriar o disco virtual e restaurar do backup:

  • Verifique se você tem um bom backup dos dados
  • Exclua o disco virtual existente; Todos os discos devem aparecer em um estado "pronto" posteriormente
  • Recrie um novo disco virtual; Configurações recomendadas: leitura antecipada adaptável, write-back e cache de disco desativado
  • Você deve ter um disco virtual on-line com uma inicialização em segundo plano em andamento.
  • Prossiga com a restauração do backup; A inicialização em segundo plano normalmente roda em torno de 600 GB / h para eixos de 7.2K, portanto, inicie o init se a restauração de backup puder ser executada mais rapidamente do que isso; caso contrário, o software de backup poderá ter alguns problemas com a latência de gravação quando nenhum novo espaço estiver disponível imediatamente durante o processo. restaurar.

Nota : Se você estiver usando o RAID5, considere SÉRIO o uso do RAID6 neste momento. O RAID5 não é confiável para dados críticos de negócios, de acordo com as melhores práticas atuais do setor em uma matriz desse tamanho. Os discos SATA / NL-SAS de grande capacidade também têm um risco maior de encontrar um URE durante as reconstruções, o que resulta em uma perfuração como a que você está lidando. O RAID6 reduz bastante esse risco e geralmente é aceitável para dados críticos com as capacidades de unidade atualmente disponíveis.

JimNim
fonte