Hoje atingimos algum tipo de pior cenário e estamos abertos a qualquer tipo de boas idéias.
Aqui está o nosso problema:
Estamos usando vários servidores de armazenamento dedicados para hospedar nossas máquinas virtuais. Antes de continuar, aqui estão as especificações:
- Máquina Servidor Dedicada
- Controlador RAID 1280ml Areca, firmware 1.49
- HDDs 12x de 1TB Samsung
Configuramos um conjunto RAID6 com 10 discos que contém um volume lógico. Temos duas peças quentes no sistema.
Hoje um HDD falhou. Isso acontece de tempos em tempos, então substituímos. Ao reconstruir um segundo disco falhou. Normalmente isso não é divertido. Interrompemos operações de E / S pesadas para garantir uma reconstrução estável do RAID.
Infelizmente, o disco hot-spare falhou durante a reconstrução e a coisa toda parou.
Agora temos a seguinte situação:
- O controlador diz que o conjunto de invasões está sendo reconstruído
- O controlador diz que o volume falhou
É um sistema RAID 6 e dois discos falharam, portanto os dados precisam estar intactos, mas não podemos colocar o volume online novamente para acessar os dados.
Durante a pesquisa, encontramos os seguintes leads. Não sei se são boas ou más:
Espelhando todos os discos para um segundo conjunto de unidades. Portanto, teríamos a possibilidade de tentar coisas diferentes sem perder mais do que já temos.
Tentando reconstruir a matriz no R-Studio. Mas não temos experiência real com o software.
Puxando todas as unidades, reinicializando o sistema, mudando para o BIOS do controlador areca, reinserindo os HDs um por um. Algumas pessoas estão dizendo que isso trouxe o sistema online por isso. Alguns estão dizendo que o efeito é zero. Alguns dizem que estragaram tudo.
Usando comandos areca não documentados como "rescue" ou "LeVel2ReScUe".
Entrando em contato com um serviço forense de computadores. Mas whoa ... as estimativas primárias por telefone excederam 20.000 €. Por isso, pedimos ajuda. Talvez estejamos perdendo o óbvio?
E sim, claro, temos backups. Mas alguns sistemas perderam uma semana de dados, é por isso que gostaríamos de colocar o sistema em funcionamento novamente.
Qualquer ajuda, sugestões e perguntas são bem-vindas.
fonte
dd
espelho de todos os discos, apenas para evitar mais danos e ter um plano de fallback ao trabalhar em uma solução real.Respostas:
Eu acho que a opção 1. é o seu melhor.
Pegue 12x novos HDDs, 1x novo controlador RAID Tente espelhar (dd se = de =) discos antigos para os novos 1: 1 usando qualquer caixa Linux. Construa um novo servidor usando o 1x novo controlador RAID e os 12x novos HDDs
Tente reconstruir a matriz no novo servidor. Sucesso? Ótimo. Pare.
Falha na reconstrução? Espelhe os discos antigos para os novos novamente, tente a Opção i + 1
fonte
Infelizmente, este é um cenário muito comum. Houve um bom estudo do Google sobre isso anos atrás, e acontece que a perda de dados com RAID pode ocorrer durante a reconstrução da matriz. Isso pode afetar diferentes sistemas RAID com diferentes gravidades. Aqui está o cenário RAID6:
Por que é que?
Pense no seguinte: vamos ter alguns dados, suponha que os 3 primeiros blocos de um arquivo tenham os seguintes blocos de dados: A1 + A2 + A3 e a seguinte paridade: Ap + Ap sentado no hdd1 ... hdd5
Se você perder dois discos entre 1 e 3, perderá dados porque os dados não são recuperáveis, você tem 2 paridades e 1 bloco de dados.
Agora, o mesmo cenário com 10 discos pode ser diferente, mas acho que foi tratado da mesma maneira que você divide os dados em 8 blocos e salva a paridade em 2 outras unidades e possui 2 hot-spares. Você conhece os detalhes da configuração do seu controlador RAID?
Eu começaria a me recuperar do backup externo (acho que você tem alguns), e o serviço voltou a tentar recuperar o máximo de dados possível, usando o Unix e dd as unidades em imagens e usando-o como dispositivo de loop, por exemplo.
http://wiki.edseek.com/guide:mount_loopback
Você precisa saber que tipo de metadados o controlador RAID usa e se tiver sorte, ele é suportado em alguma ferramenta como dmraid.
Mas isso não significa que você possa recuperar dados, uma vez que os arquivos são distribuídos entre muitos e muitos blocos normalmente, é provável que a recuperação não traga nenhum dos seus dados.
Mais sobre RAID:
https://raid.wiki.kernel.org/index.php/RAID_setup
fonte