aqui está a minha situação.
Eu tenho um servidor Dell com um controlador Dell Perc 7i (controlador LSI).
Eu tinha um drive me dando um aviso de falha prevista, então liguei para o suporte e eles saíram e substituíram o drive e a matriz foi reconstruída, um padrão bastante comum.
Duas semanas depois, tenho outra unidade, me dando o aviso de falha prevista. Achei que talvez fosse um lote ruim de unidades ou coincidência, etc. Então, entre em contato com o suporte e analise com mais profundidade. Percebo que havia blocos defeituosos em uma das outras unidades que não falharam e esses blocos defeituosos foram copiados durante a reconstrução. Então agora eu tenho blocos ruins por todo o lado e eles estão lentamente matando minha matriz. Eu descobri que isso é chamado de matriz perfurada.
Portanto, o conselho deles era substituir todas as unidades, reconstruir a matriz e restaurar do backup. Exceto que eu tenho esse problema há algumas semanas, o que significa que meus backups estão com problemas ... e se eu restaurar a partir de um backup anterior (um mês atrás), perderei cerca de 4 semanas de dados do meu banco de dados que é totalmente inaceitável para o nosso escritório.
Minha pergunta é ... alguém já se recuperou de algo assim sem ter que perder dados ou sem a abordagem geral (jogue tudo pela janela e comece de novo)?
Eu encontrei um link que cobria meu cenário, não tenho certeza se ele esclarece a situação: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/
Qualquer ajuda ou direção seria apreciada ! O que é que vocês acham?
fonte
Nesse instante, faça o seguinte:
Esperamos que os discos ainda sejam bons o suficiente para que seus dados estejam intactos e você não encontre nenhum problema ao executar o novo backup completo.
Em seguida, descarte esses discos e crie uma nova matriz RAID. Quando estiver pronto, tente restaurar a partir do backup que você fez agora. Com alguma sorte, será tudo o que você precisa fazer.
Se isso falhar, tente o próximo mais antigo, o próximo mais antigo etc. Certifique-se de testar a funcionalidade do sistema - apenas porque ele inicializa, não significa que esteja totalmente operacional. Particularmente, teste os bancos de dados quanto à corrupção.
Se você tivesse que restaurar o sistema inteiro a partir de um backup antigo, tudo bem. Faça os backups mais recentes e restaure apenas os arquivos de banco de dados e outros arquivos importantes. Teste-os para garantir que eles funcionem corretamente. Novamente, se isso falhar, tente o próximo mais antigo.
O uso desse processo minimiza a perda de dados.
fonte
As respostas fornecidas por Grant e Nathan C são ótimas em relação a como você deve proceder ao lidar com backups / restauração e abordar a integridade dos dados.
Aqui estão alguns detalhes mais claros sobre como lidar com o conjunto de RAID na hora de recriar o disco virtual e restaurar do backup:
Nota : Se você estiver usando o RAID5, considere SÉRIO o uso do RAID6 neste momento. O RAID5 não é confiável para dados críticos de negócios, de acordo com as melhores práticas atuais do setor em uma matriz desse tamanho. Os discos SATA / NL-SAS de grande capacidade também têm um risco maior de encontrar um URE durante as reconstruções, o que resulta em uma perfuração como a que você está lidando. O RAID6 reduz bastante esse risco e geralmente é aceitável para dados críticos com as capacidades de unidade atualmente disponíveis.
fonte