Substituição de discos rígidos [fechado]

19

Eu queria saber se é uma boa idéia substituir um disco rígido em um servidor de banco de dados crítico do sistema após um certo número de anos de uso, antes que ele morra.

Por exemplo, eu estava pensando em substituir um disco rígido após três anos de uso. Como tenho muitos discos rígidos nos servidores, posso escalonar quais discos rígidos são substituídos.

É uma boa ideia ou as pessoas apenas esperam pelo fracasso?

Garfonzo
fonte

Respostas:

33

O Google fez um estudo sobre unidades de disco e encontrou muito pouca correlação entre idade e falha do disco. Os testes SMART também não mostram falhas.

Minhas observações locais (> 500 servidores) são semelhantes. Eu tenho novos discos falharem rapidamente, enquanto os antigos ainda funcionam.

Minha regra geral é que, se tivermos problemas de disco (erros de sistema ou SMART), substituí-lo imediatamente. Caso contrário, as unidades serão desativadas quando o servidor o fizer.

Estudo do Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
fonte
Isso era geralmente o que eu estava pensando, mas queria ver o que os outros faziam. Obrigado
Garfonzo
2
Eu concordo. Estamos vendo taxas de falha muito mais altas nas unidades SAS de 2,5 "mais recentes do que nos servidores de 10 anos executando unidades SCSI de 3,5" e 9GB!
James O'Gorman
@ JamesO'Gorman Os processos de fabricação mudam ... me faz pensar no que foi feito com as novas unidades como parte de uma "troca" de engenharia.
Avery Payne
1
A Microsoft Technet também tem um artigo sobre tolerância a falhas que aborda brevemente a falha do disco rígido / componente mecânico ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Eles falam um pouco sobre a "curva da banheira" que falhas de componentes tendem a seguir.
voretaq7
Novas unidades da @AveryPayne Re, observe que as unidades de 2,5 "têm tolerâncias MUITO mais restritas - como resultado, o que costumava ser uma inclinação mecânica" aceitável "em uma unidade de 3,5" pode levar a uma falha catastrófica em uma unidade de 2,5 ". Consulte também o artigo da TechNet Liguei-me sobre a curva da banheira - Os componentes mecânicos sofrem de alta mortalidade infantil em geral e são relativamente estáveis ​​até finalmente morrerem de "velhice". As unidades de 2,5 "ainda estão no território da" mortalidade infantil "- pela minha experiência em pelo pelo menos 1 ano de operação.
voretaq7
13

Não.

Um dos maiores problemas com a substituição de um disco rígido em um servidor de produção ativo é que isso provocará uma reconstrução. Especialmente se você estiver usando RAID5, e especialmente se estiver usando unidades grandes, forçar uma reconstrução cria um risco muito significativo de uma falha irrecuperável. O risco de perder a matriz durante uma reconstrução é muito maior do que o risco de deixar uma unidade de 3 anos de idade no lugar.

Tomando um exemplo extremo, se você substituir sucessivamente todos os discos em uma matriz RAID5 de 6 discos composta por discos de 2 TB, seu risco teórico de um erro de leitura irrecuperável durante uma das reconstruções é de aproximadamente 58% (de acordo com a matemática dos meus guardanapos; faça o seu próprio e compare as notas). Em outras palavras: sua substituição "preventiva" de disco é, na verdade, nada menos que um ato de sabotagem.

O único momento em que eu consideraria atualizar as unidades em um servidor antigo seria "restaurá-lo", por exemplo, depois de ter sido descomissionado de uma tarefa e antes de colocá-lo novamente em serviço com uma nova função. Mesmo nesse ponto, os requisitos de capacidade e desempenho seriam muito mais importantes do que a idade das unidades.

Falcão do céu
fonte
1
+1 para acionar a reconstrução
gregmac
Você pode explicar por que o risco é de 58%? Se o disco é patrulhado regularmente, por que isso estressaria mais a recuperação?
Mircea Vutcovici
@MirceaVutcovici porque, em um arranjo RAID-5, todas as unidades estarão constantemente ativas durante a reconstrução versus a busca aleatória ocasional aqui ou ali. Em outras palavras, a "carga" em todas as unidades aumenta muito e, ao fazê-lo, seu risco de acionar uma segunda unidade com falha também aumenta.
Avery Payne
@ Avery Payne Eu sei que você enfatiza mais os discos durante uma reconstrução. Estou tentando entender por que uma reconstrução estressaria os discos mais do que uma verificação de consistência.
Mircea Vutcovici
@MirceaVutcovici A figura exata (e como fazer as contas) é discutível, mas o ponto principal é que você precisa ler 10 terabytes de dados seis vezes , sem o benefício de um disco de paridade para corrigir erros de leitura, a fim de executar o seis reconstruções. A probabilidade de ler 60 terabytes de dados, sem erros, não é a seu favor.
quer
3

Eu não vi isso. Mantemos os servidores sob garantia até que sejam retirados de produção - 5 anos. O RAID 5 padrão permite que você sobreviva a uma falha no disco, mantendo apenas algumas unidades à mão para iniciar uma reconstrução imediatamente e em servidores críticos, incluímos um hotspare ou o RAID 10.

Se você notou várias unidades com falha recentemente em um servidor, você pode ter um problema no painel traseiro. Também pode haver nova vibração ou poeira de construções próximas.

Paul Ackerman
fonte
Isso não é inteiramente verdade. se um grande número de discos for do mesmo lote, você corre um risco muito maior de falha simultânea ao adicionar o estresse de uma reconstrução. Conforme observado em outra resposta, tamanhos crescentes de RAID5 executam probabilidades crescentes de um URE durante a reconstrução, o que leva sua matriz abaixo do limite de validade do raid5.
Magellan