Temos um servidor Dell PowerEdge T410 executando o CentOS, com uma matriz RAID-5 contendo 5 discos SATA Seagate Barracuda de 3 TB. Ontem o sistema travou (não sei exatamente e não tenho logs).
Ao inicializar no BIOS do controlador RAID, vi que dos 5 discos, o disco 1 foi rotulado como "ausente" e o disco 3 foi rotulado como "degradado". Forcei o disco 3 a fazer backup e substitui o disco 1 por um novo disco rígido (do mesmo tamanho). O BIOS detectou isso e começou a reconstruir o disco 1 - no entanto, ficou travado em% 1. O indicador de progresso giratório não se moveu a noite toda; totalmente congelado.
Quais são minhas opções aqui? Existe alguma maneira de tentar reconstruir, além de usar algum serviço profissional de recuperação de dados? Como dois discos rígidos podem falhar simultaneamente assim? Parece excessivamente coincidência. É possível que o disco 1 tenha falhado e, como resultado, o disco 3 "ficou fora de sincronia?" Nesse caso, existe algum utilitário que eu possa usar para recuperá-lo "em sincronia?"
fonte
Respostas:
Depois que você aceitou uma resposta ruim , sinto muito pela minha opinião herética (que já salvou essas matrizes várias vezes).
Seu segundo disco com falha provavelmente tem um problema menor, talvez uma falha de bloco. Esta é a causa, porque o mau ferramenta de sincronização do seu mau firmware raid5 caiu sobre ele.
Você pode facilmente fazer uma cópia em nível de setor com uma ferramenta de clonagem de disco de baixo nível (por exemplo, gddrescue é provavelmente muito útil) e usar esse disco como seu novo disco3. Nesse caso, sua matriz sobreviveu com uma pequena corrupção de dados.
Sinto muito, provavelmente seja tarde demais, porque a essência da resposta ortodoxa neste caso: "falha múltipla em um ataque5, aqui está o apocalipse!"
Se você quiser um ataque muito bom e redundante, use o software raid no linux. Por exemplo, seu layout de dados de superbloqueio de ataques é público e documentado ... Sinto muito, pela minha outra opinião herética.
fonte
Você tem uma falha de disco duplo. Isso significa que seus dados se foram e você precisará restaurar a partir de um backup. É por isso que não devemos usar o RAID 5 em discos grandes. Você deseja configurar seu ataque, para ter sempre a capacidade de suportar duas falhas de disco, especialmente com grandes discos lentos.
fonte
Suas opções são:
fonte
Falhas simultâneas são possíveis, e até mesmo prováveis, pelas razões que outros deram. A outra possibilidade é que um dos discos falhou algum tempo antes e você não estava verificando ativamente.
Verifique se o seu monitoramento captaria um volume RAID em execução no modo degradado imediatamente. Talvez você não tenha uma opção, mas nunca é bom ter que aprender essas coisas com o BIOS.
fonte
Para responder "Como dois discos rígidos podem falhar simultaneamente assim?" precisamente, gostaria de citar este artigo :
Portanto, o RAID5 não era seguro em 2009. O RAID6 será em breve também. Quanto ao RAID1, comecei a transformá-los em três discos. O RAID10 com 4 discos também é precário.
fonte
O segmento é antigo, mas se você estiver lendo, entenda quando uma unidade falhar em uma matriz de ataque, verifique a idade das unidades. Se você tiver vários discos em uma matriz de ataque e eles tiverem mais de 4-5 anos de idade, é bem provável que outra unidade falhe. *** Faça uma imagem ou backup ** antes de prosseguir. Se você acha que possui um backup, teste-o para ter certeza de que pode lê-lo e restaurá-lo.
A razão é que você está colocando anos de desgaste normal nas unidades restantes, pois elas giram a toda velocidade por horas e horas. Quanto maior o número de unidades de 6 anos, maior a chance de outra unidade falhar devido ao estresse. Se for RAID5, e você explodir a matriz, é ótimo ter um backup, mas um disco de 2 TB demorará de 8 a 36 horas para restaurar, dependendo do tipo de controlador de invasão e outro hardware.
Substituímos rotineiramente toda a seção de raides nos servidores de produção, se todas as unidades forem antigas. Por que perder tempo substituindo uma unidade, aguarde até a próxima falhar em um dia, semana, mês ou dois. Por mais barulhentos que sejam os discos, simplesmente não vale o tempo de inatividade.
fonte
Normalmente, ao comprar muitas unidades de um revendedor respeitável, você pode solicitar que as unidades sejam de lotes diferentes, o que é importante pelos motivos mencionados acima. A seguir, é exatamente por isso que existe o RAID 1 + 0. Se você tivesse usado 6 unidades no RAID 1 + 0, teria 9 TB de dados com redundância imediata, onde não é necessária a reconstrução de um volume.
fonte
Se o seu controlador for reconhecido pelo dmraid (por exemplo aqui ) no linux, você poderá usar o ddrescue para recuperar o disco com falha para um novo e usar o dmraid para criar a matriz, em vez do controlador de hardware.
fonte