RAID-6: melhor substituir duas unidades mortas ao mesmo tempo ou uma de cada vez?

21

Temos um RAID-6 de 16 unidades com três unidades problemáticas. Dois já estão mortos e o terceiro está dando avisos SMART. (Não importa como ficou em um estado tão ruim.)

Obviamente, queremos substituir as unidades mortas antes da que ainda está funcionando, mas é melhor:

  1. substitua uma unidade morta, deixe o RAID reconstruir, depois substitua a outra e deixe reconstruir novamente; ou

  2. substituir as duas unidades ao mesmo tempo e deixá-lo reconstruir os dois em paralelo?

Em outras palavras, voltaremos a um estado de redundância mais rápido ao reintroduzir uma unidade ou duas? A reconstrução de duas unidades em paralelo atrasa o processo de reconstrução?

Caso isso importe, o controlador é um 3ware 9650SE-16ML.

Warren Young
fonte
10
Cruze tudo o que você conseguiu e envie uma grande doação à sua divindade favorita!
user9517 suporta GoFundMonica
1
Posso apenas fazer uma pergunta sobre isso; você pode nos informar a marca e o modelo EXACT de disco nessa matriz - se minhas suspeitas estiverem corretas, é muito provável que essa pergunta se torne um ponto de referência útil para futuros usuários que fazem determinadas perguntas. Obrigado.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Eles desligaram? Bad JuJu meu amigo! É tarde demais desta vez, mas, em geral, o desligamento das unidades (especialmente se forem unidades antigas que estão em funcionamento há muito tempo) oferece a oportunidade de gerar erros no processo de rotação (e fazer com que o controlador diga "Sim, essa unidade está frita também ")
voretaq7 30/08
2
@ voretaq7: Uma vez enviei todos os discos de uma caixa MSA-20 para o inferno, desligando-o após ~ 3 anos de tempo de atividade e uso contínuo. Nunca mais vou fazer isso de novo :-) #
3177
1
A matriz está pronta e em reconstrução agora, para que eu possa obter modelos exatos, para quem se importa. Os discos rígidos originais eram ST31000340NS, o que significa que são a versão com classificação por servidor daquela sobre a qual o Chopper3 estava perguntando. Então, esses são notórios por falhar ou algo assim? (Os novos são ST31000524NS).
Warren Young

Respostas:

27

!!!!! 1 !!!!!

Faça um de cada vez, sério, não pense em fazer QUALQUER outra maneira, ok.

Qualquer outra coisa testará suas habilidades completas de restauração do sistema.

Chopper3
fonte
3
Os dois itens que eu acrescentaria a esta resposta são: (1) ORAÇÃO (para qualquer divindade que você quiser) e (2) MONITORAMENTO quando você voltar tudo para um estado seguro (para que você saiba quando as unidades falharem no futuro e possa resolver . o problema antes que você tenha falhas dois anos e meio Opcionalmente você também pode configurar um hot spare na matriz para o futuro.
voretaq7
3
Ou use RAID 10 </stockanswer>
Chopper3
1
Re: oração , sem comentários. :) Re: monitoramento , venho defendendo isso há anos; talvez isso acenda um fogo embaixo de alguém. Re: RAID-10 , muitos dados em um mercado de lances; quando os discos de 3 TB foram lançados, não triplicamos a redundância, reduzimos o número de discos em 1/3. Suspiro. Re: hot spares , fazemos isso agora que as unidades são grandes o suficiente para permitir isso, mas esse servidor em particular tinha 16 unidades em um gabinete de 16 unidades, quando as unidades de 1 TB eram as maiores que você poderia obter, e realmente precisávamos de todas as 14 TB disponíveis . Ir para um sistema de 24 unidades não teria funcionado; veja anterior. :)
Warren Young
2
Se as unidades já falharem, não há motivo para mantê-las por perto - seria de esperar que duas reconstruções consecutivas sejam mais estressantes para as outras unidades do que uma única.
Simon Richter
1
+1, isto. Embora duas reconstruções consecutivas aumentem o estresse e aumentem a probabilidade de a terceira unidade falhar antes de terminar as duas, também é uma reconstrução mais rápida e, se a unidade marginal falhar durante a reconstrução do 2º disco, você permanecerá online. Portanto, a maneira mais rápida e segura de um estado tolerante a falhas é uma de cada vez.
Joel Coel #
14

Você tem bons backups recentes? Se não, você acha que pode obtê-los em tempo razoável?

Honestamente, eu ficaria mais preocupado em desativar a unidade defeituosa offline durante uma reconstrução do que qualquer outra coisa - se você já está lançando erros SMART, está na metade do caminho.

Minha sugestão seria confirmar seus backups e, em seguida, reconstruir uma unidade de cada vez para tentar recuperar para um estado em que você possa substituir a que está lançando erros SMART (unidades mortas primeiro, soft-erros por último).

Se você não tiver backups, é uma porcaria: o backup pode criar erros simples o suficiente para marcar a unidade marginal como falhada, assim como tentar fazer uma reconstrução.

voretaq7
fonte
2
A maioria ou todos os dados desse array são um tipo de cache, para evitar a necessidade de extrair terabytes de dados repetidamente por um link lento. Esses dados do cache são todos substituíveis, baixando-os novamente durante meses (uma vez) ou enviando-os para um site que pode copiar de outra matriz. Portanto, os backups não são o problema. O que estamos tentando evitar ao salvar a matriz são os dias ou semanas de tempo de inatividade para enviar o servidor para um depósito de serviços, preencher novamente a matriz e enviá-la de volta.
Warren Young
nesse caso, o que o @ chopper3 disse é praticamente a lei da terra: reconstrua uma unidade de cada vez e ore realmente muito duro para não desarmar a unidade marginal offline com a carga extra de leitura.
voretaq7
Ufa - feliz em ouvir isso.
precisa saber é o seguinte
0

Não vejo sentido em alterá-lo como "um disco por vez".

Obviamente, se o RAID for capaz de "resilver" os dois discos simultaneamente ( que falharam de qualquer maneira ), você só ganhará, permitindo que todo o RAID recupere sua capacidade de suportar até 2 falhas mais rapidamente .

poige
fonte
-1

Meus 0,02. $

Como o servidor já está offline, execute o ddrescue na unidade que está prestes a falhar, para cloná-lo em outra unidade sã.

Em seguida, coloque a nova unidade sã na matriz. Se a clonagem for bem-sucedida, você evitará o risco de ver a unidade falhar durante duas reconstruções.

Guillaume A
fonte
É um controlador RAID de hardware, os discos individuais não são endereçáveis.
Chopper3