Existe um motivo para alterar o disco rígido de um servidor antes que ele falhe?

11

Apenas uma pergunta rápida: existe uma razão para alterar o disco rígido de um servidor após x anos antes de falhar (eventualmente ocorrerá em algum momento) ou devo deixá-lo até que falhe? Tenho pouca experiência com administração de servidor real, então eu me pergunto ...

Spiros
fonte
Eu não esperava obter tantas respostas, uau :) Depois de revisar todas elas e levar em consideração que a) Os discos rígidos do servidor são adequados para esse fim b) O backup é absolutamente garantido (usando RAID + Replication Slave + backup diário para uma fonte externa) Não encontro motivos para sugerir uma alteração na unidade. Obrigado a todos!
Spiros

Respostas:

8

Um ótimo motivo para alterá-lo é se você deseja adicionar outra tarefa à sua lista de tarefas, aumentando as chances de algo dar errado.

Brincadeiras à parte, não há realmente nenhuma razão que eu tenha ouvido falar para mudar a unidade antes do tempo. Se você possui o RAID, já possui proteção (supondo que tenha backups decentes) e não está gerando resíduos na forma de uma unidade morta para descarte e não precisa trabalhar desnecessariamente para eliminar dados confidenciais da unidade. Você não estará gastando dinheiro extra em novas unidades e ainda não estará se protegendo proativamente contra coisas que ainda podem dar errado, como um controlador de unidade com defeito, o que não é comum como fonte de falha de unidade, mas pode acontecer.

Por outro lado, isso pode ajudá-lo a descobrir erros irrecuperáveis ​​de unidade que não estão acionando alarmes na unidade RAID, como havíamos acontecido com o RAID 5. Fomos mordidos por isso e acabamos precisando reconstruir a partir do bare metal a partir do backup (portanto, mesmo nesse caso, um backup adequado ajudará você a se recuperar.) Um nível de RAID que leva em consideração as maiores capacidades de unidade de hoje e tolerâncias irrecuperáveis ​​de erro nos ajudaria, se não, os backups salvam o dia.

A maioria dos administradores possui um plano decente de RAID e backup, portanto não há necessidade real de gerar desperdício extra, substituindo as unidades desnecessariamente.

Bart Silverstrim
fonte
6

A única vez em que posso considerar isso é se eu tiver um monte de discos do mesmo lote e outros no lote começarem a falhar, então eu posso considerá-lo.

Se eu estivesse com pouco espaço, certamente faria isso - mas por nenhuma outra razão senão porque está ficando velha? Não, porque, em média, a taxa de falhas no primeiro ano é semelhante à taxa de falhas em outros anos . (observe que o gráfico inicia o primeiro ano em 3 meses, 6 meses e 1 ano, mas você deve adicioná-los todos juntos para ter a chance de falha em 1 ano). E, ao analisar a alta utilização do disco, é mais provável que falhe no primeiro ano do que nos próximos três anos juntos.

A única correlação com falha tardia na unidade estava em salas mais quentes, e mantemos nossas salas de servidores frescas.

Joe H.
fonte
5

Sou a favor de ser proativo, mas nunca fiz isso e nunca ouvi falar de alguém fazendo isso. Presumivelmente, você tem algum tipo de configuração de RAID e backups válidos e regulares para o (s) sistema (s) em questão.

joeqwerty
fonte
5
+1, nunca considerou. Substituir um disco, just-in-case, e acionar intencionalmente uma reconstrução de matriz não parece ser a melhor maneira de "exercitar" os restantes discos de produção. Seja mais difícil explicar ao chefe por que o sistema está inativo se a reconstrução falhar.
Jscott
3
Substituo discos com erros SMART, mas considero que eles falharam, mesmo que ainda funcionem tecnicamente.
Chris S
4

Sim, desempenho e capacidade. Se o disco rígido antigo fizer leituras sustentadas de 70 MB / s e 100 IOPS, e a possível substituição fizer leituras sustentadas de 200 MB / seg e 175 IOPS e também tiver 3 vezes a capacidade, você poderá justificar a compra de novas unidades e trocar as antigas por novas simplesmente para razões de desempenho / capacidade. (e esses números são totalmente compostos, o ponto é mais recente que pode ser significativamente mais rápido).

Agora, o que você faz com as unidades antigas. Você pode usá-los em um servidor de teste ou adicioná-los a uma matriz de backup em disco ou mantê-los como peças de reposição de emergência. Ou você pode apenas limpá-los e enviá-los para descarte.

Hoje em dia, seu servidor médio está vinculado à IO mais do que ao processador (ou pelo menos todos os meus). Portanto, se você tiver um servidor realmente antigo que não tenha problemas com o tempo de CPU ou com a falta de memória, provavelmente terá espaço para melhorar significativamente o desempenho substituindo os discos rígidos que estão várias gerações atrás do que você pode comprar facilmente para substituí-los.

pplrppl
fonte
3

Depende do impacto se a falha do disco rígido.

Se você não possui um RAID
Se não se importa com a disponibilidade do servidor, porque o serviço pode ser interrompido ou porque está em alta disponibilidade e se você possui um backup de dados em funcionamento. Eu diria que Ok, deixe a unidade morrer e altere-a e restaure os dados quando ela falhar.
Se você se preocupa com a disponibilidade, direi usar RAID;)

Se você tem um RAID (1, 5, 6, ...)
eu diria, por que mudar o disco rígido antes da falha? RAID (e backup) está aqui para isso. Mudar um disco rígido para o caso de falhar é um risco de quebrar alguma coisa (a reconstrução de incursões é sempre arriscada)

Mas é apenas o meu ponto de vista! Se você acha que sua unidade pode ser muito antiga, também pode alterar o servidor.

raio
fonte
2

Alguns discos morrem em 1 hora, outros duram 2 décadas.

Se não falhou ou falhou (algo que você geralmente pode estabelecer por meio do monitoramento SMART ou de problemas de desempenho), o único outro motivo para descartá-lo é se não for grande o suficiente ou rápido o suficiente para seus propósitos.

Chris Thorpe
fonte
1
Apenas monitore a unidade com o SMART e ela geralmente mostrará os sinais de falha antes que seja tarde demais.
Prof. Moriarty
O estudo de discos em massa do Google mostrou que o SMART era "geralmente" confiável 44% a 72% das vezes. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott
2

Com os discos, a questão não é se eles falharão, mas quando . Eles são dispositivos mecânicos (a menos que usem SSDs, mas têm suas próprias advertências); portanto, falharão mais cedo ou mais tarde.

Os fornecedores de disco tendem a adaptar seus processos de fabricação a serem o mais barato possível, porque mesmo um único centavo economizado por disco pode ser bastante importante quando você está produzindo e vendendo milhares deles; mas é claro que eles não querem que seus discos falhem antes do término do período de garantia, ou eles os substituiriam gratuitamente o tempo todo; portanto, eles gastam felizmente o necessário para que durem enquanto a garantia os cobrir ... mas nem um centavo a mais.

O resultado final é: a maioria dos discos tende a falhar logo após o término do período de garantia. Obviamente, isso não é uma regra geral, são apenas estatísticas, e seu disco pode falhar agora ou durar até que você não precise mais dele ... mas, estatisticamente, existem muitos discos que falham alguns dias ou meses após a instalação. garantia expirada.

É claro que comprar novos quando você ainda não precisa deles pode ser caro ... mas substituí-los depois que a garantia expirar e eles falharem será caro de qualquer maneira.

Agora, se você pudesse encontrar uma maneira de fazê-los falhar enquanto ainda estivesse garantido (e não perdendo dados no processo, ou seja, tendo bons RAID E backups), bem, isso seria ótimo ;-)

Massimo
fonte
2

Eu não substituiria uma unidade de trabalho mais do que uma fonte de alimentação de trabalho. Ambos acabarão fracassando, mas não faz sentido, técnica ou financeiramente, substituí-los sem uma boa causa. Substitua-os quando começarem a mostrar sinais de problemas.

No caso de discos rígidos, a tendência é que, se um disco falhar mais cedo, provavelmente o fará no primeiro ano. Normalmente, as unidades que ficam sem problemas há 6 anos podem continuar trabalhando por pelo menos mais alguns anos. Obviamente, existem muitas exceções a isso, mas é a tendência geral.

John Gardeniers
fonte
1
Você (geralmente) não perde dados quando uma fonte de alimentação falha ... #
Massimo Massimo
1
@Massimo - Verdade, mas em um servidor você também geralmente não perde dados quando uma unidade falha. Na minha opinião, se não houver redundância, é apenas uma estação de trabalho glorificada, não um servidor real.
John Gardeniers
1

Além disso, lembre-se de que a maioria das unidades de classe de servidor possui requisitos de fabricação mais rigorosos e geralmente são mais confiáveis ​​do que as unidades de desktop de baixo custo / orçamento. Portanto, além dos perigos de substituir uma unidade 'boa' no caso de ela possivelmente falhar, fazer isso para uma grande variedade pode resultar em uma grande soma de dinheiro.

Além disso, ao usar um RAID, é por isso que é uma boa ideia ter pelo menos um hot spare no servidor, para que ele possa rapidamente começar a se reconstruir e permanecer em bom estado até que você compre as substituições conforme necessário.

user2626
fonte
1

Eu fiz isso em sistemas de "tempo de inatividade zero". Na verdade, você provavelmente perderá uma unidade diferente quando o RAID for reconstruído ... Troquei uma vez e acabei trocando novamente quando outra unidade começou a gerar erros durante a reconstrução.

É realmente uma questão de filosofia: se você acredita em testes de estresse pró-ativos (tanto na matriz quanto no sistema cardiovascular), deve trocar de direção. Mas, na verdade, você nunca saberá qual unidade vai dar errado em seguida. Não é improvável que você perca a unidade recém-substituída antes de perder qualquer uma das unidades antigas e comprovadas.

Dito isto, eu desperdiçaria meu tempo testando a minha solução de backup e deixaria as unidades em paz até que comecem a gerar erros.

Satanicpuppy
fonte