fundo
Meu sistema de desktop pessoal em casa possui 5 unidades SATA montadas no interior. Recentemente, meu sistema começou a falhar de maneiras estranhas, como pânico aleatório no kernel, e eu finalmente o localizei para degradações aleatórias na matriz RAID. Às vezes eu conseguia inicializar, outras vezes não e assim por diante. Depois de perseguir os problemas do software por um tempo, finalmente fui puxar os discos e descobri o verdadeiro motivo pelo qual eles estavam falhando: eles eram mais quentes do que um churrasco no dia 4 de julho! A ventoinha do gabinete dianteiro estava presa e o ventilador PS tinha um conector de energia solto preso em sua grade, de modo que o interior do gabinete estava cozinhando.
Como espera, encontrei um ventilador doméstico e esfriei aquele otário. Funcionou muito bem com tudo de bom e descontraído. Nesse período, aprendi como obter as leituras de temperatura da unidade com o SMART
for i in a b c d e; do
sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done
Agora eu sei que, com o meu gabinete, abri um ventilador doméstico limpando permanentemente as teias de aranha que as unidades correm entre 31 e 32 °. Um teste rápido sem ventilação para replicar o estado de falha mostra que as unidades atingiram os 40 anos rapidamente. Eu não sei o quão ruim foi durante a falha real ou há quanto tempo é assim.
Com isso em mente, substituí as ventoinhas defeituosas, adicionei mais algumas, atualizei a frontal soprando as unidades de 80 a 120 mm e fechei-a novamente. Com ele de pé na vertical novamente, a faixa de temperatura agora está geralmente em 32 ° na parte inferior do aparelho e 37 ° na parte superior.
A questão
Qual é a faixa geral de temperatura operacional segura para drives SATA? 37 ° deve ser uma preocupação ou o dano ao inversor não é um problema até depois de um certo ponto?
Embora as unidades pareçam ter um bom desempenho agora, qual a probabilidade de exposição ao calor no passado para torná-las propensas a falhas agora?
Respostas:
37 graus não deve ser um problema. Naturalmente, os discos rígidos diferem em suas especificações, alguns podem ficar mais quentes que os outros. Você deve verificar as especificações publicadas das unidades que possui. Por exemplo, a temperatura operacional WD Caviar Black de 1 TB é de -0 ° C a 60 ° C. É claro que você não deseja que sua unidade funcione 60 °, pois isso pode reduzir sua vida útil.
O Google publicou um estudo muito interessante (PDF) sobre a saúde e a vida útil do disco rígido, com base nos dados coletados em seus sistemas (muitos milhares de discos rígidos). Esse estudo diz que:
O gráfico mostra que a taxa de falha não aumenta até que a temperatura da unidade ultrapasse 45 graus.
fonte
Essa é apenas minha experiência pessoal limitada, mas eu executei algumas unidades no 40C superior sem problemas por 2 a 3 anos, desde que eu estava usando um gabinete silencioso (resfriado por um pequeno ventilador para evitar atingir 50C). Nessas temperaturas, eu assumiria uma vida útil mais curta e morte rápida, em vez de corrupção aleatória de dados, mas poderia estar errado. De qualquer forma, qualquer coisa abaixo de 40C-42C está bem.
Mas não subestime outros fatores que provavelmente desempenharão um papel na corrupção de dados:
1) A ponte sul que abriga o chipset do controlador IDE / RAID geralmente é resfriada apenas por um pequeno dissipador de calor. Eles tendem a esquentar em condições normais, portanto, um aumento na temperatura ambiente devido à falta de fluxo de ar do gabinete e muitos HDDs podem causar plausivelmente danos aos dados.
2) O superaquecimento da RAM ou da CPU é um culpado comum de erros de memória CRC, que se traduz em corrupção de dados. O monitoramento da temperatura da CPU e a execução de testes de memória são essenciais quando confrontados com corrupção de dados.
Se seus indicadores SMART atuais estiverem corretos e não mostrarem contagens incorretas de setor, consideraria as unidades seguras para uso.
fonte
A publicação inicial afirmou que o usuário não sabia o quão quente suas unidades haviam ficado - alguns discos registram esse parâmetro e é acessível através das informações SMART. O disco rígido sentinal é uma peça de software que informa isso como temperatura máxima durante toda a vida útil.
Vi resultados de unidades Maxstor, WD e Seagate
Algumas das minhas unidades USB externas que eu uso para backup mostram temperaturas máximas de 63 e 64 ° C, respectivamente! Eu criei um cooler para a unidade externa
fonte
Li o relatório mencionado acima e verifique os intervalos de temperatura operacional dos discos rígidos Samsung, WD e Hitachi. Com base em pesquisas, concluí que as unidades que operam de 30 a 45 graus oferecem a menor probabilidade de falha; Uma alta temperatura SMART de até 55 graus não é motivo de preocupação; e que temperaturas de pico acima de 60 graus indicariam uma expectativa de vida útil reduzida da unidade.
Meus próprios testes indicam que é esperado um aumento de até 10 graus durante períodos de acesso intenso.
Parece haver algum fator desconhecido no trabalho que está causando taxas de falha anormais em unidades externas. Embora o calor pareça fazer parte do problema, não é a resposta completa. Eu aconselho todos os usuários de unidades externas a monitorar de perto as temperaturas sempre que houver uma alteração na natureza do uso ou no ambiente das unidades. Este parece ser um problema "desconhecido" (não usual) que leva a essas unidades sobreaquecer inesperadamente.
Atualmente, estou rejeitando a explicação de vírus de computador, ignorância do usuário, protocolos USB ruins e a localização das unidades em um local inadequado.
fonte