Meu disco rígido está falhando?

42

Eu apenas tentei executar um teste no meu disco rígido e ele não deseja concluir um autoteste. Aqui está o resultado:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Então, este disco está falhando?

Michel
fonte
Quando eu uso a ferramenta gráfica que diz auto-teste de falha
Michel
3
As repetidas read failuremensagens geralmente indicam um disco falhar, então sim ...
HBruijn
23
Michel, seja bem-vindo à SF e obrigado por uma boa primeira pergunta. Como você pode ver se decidir ficar por aqui (o que espero), uma boa primeira pergunta é uma coisa rara e preciosa. Você tinha uma hipótese apropriada ao site ( "meu HDD está falhando "), encontrou a ferramenta relevante e aprendeu a usá-la, mas precisava de ajuda na interpretação dos resultados. Então você veio aqui, nos deu todas as informações relevantes, sem lixo excedente e fez uma pergunta que era um modelo de concisão. Obrigado - por favor, fique por perto!
MadHatter apoia Monica
3
+1: excelente primeira pergunta. Para aproveitar ao máximo a falha do servidor, registre sua conta e confira alguns dos outros sites na rede Stack Exchange . Esperamos que você contribua com mais conteúdo de alta qualidade para o Stack Exchange.
bwDraco

Respostas:

43

Sua unidade está muito feliz em fazer um autoteste; do resumo, ele fez mais de cinco deles na última hora. E todos eles falharam, no início do teste, com erros de leitura.

Sim, este disco rígido está falhando. Como o famoso relatório do Google Labs disse (embora eu não possa colocar um link para ele no momento), se smartctldiz que sua unidade está falhando, provavelmente está (parafraseando).

Editar : não tente salvá-lo. Tire todos os dados e substitua-os.

MadHatter apoia Monica
fonte
9
Se está falhando, está falhando. Consertá-lo pode ser tecnicamente possível, mas extremamente improvável que seja econômico, comparado ao custo de uma nova unidade.
Sobrique
7
@ Michel A ausência de um erro de autoteste não é prova de que uma unidade não está falhando, infelizmente, mas a presença de um erro de autoteste sempre deve ser considerada uma prova de que está falhando.
precisa
1
@ Michel: Você pode tentar substituir os cabos. Às vezes, uma unidade pode falhar, não por problemas na unidade, mas por problemas de energia ou cabos de dados.
Thomas Padron-McCarthy /
1
@ JorgeNerín: Eu acho que você faz uma excelente observação, mas a evidência é que eu e o OP já entendemos - o OP deve, pois ele iniciou pelo menos cinco deles nas últimas duas horas. Quanto aos testes, eu concordo com você que um teste longo seria um indicador melhor de que o inversor é íntegro, mas quando falha nos testes curtos e de transporte nos primeiros 10%, acho que podemos concluir razoavelmente tiro. O que você espera que seja revelado por testes mais extensos?
MadHatter apoia Monica
2
@ JorgeNerín <sorriso> isso faz sentido! Eu só falei isso porque o OP começou antropomorfizando sua unidade: " Eu apenas tentei executar um teste no meu disco rígido e ele não deseja concluir um autoteste ". Acho que nenhum de nós acha que a unidade está viva, nem que ela agende os autotestes por si só!
MadHatter suporta Monica
10

Para responder à sua pergunta, um teste SMART com falha é uma indicação infalível de falha iminente da unidade. Você deve fazer backup de seus dados e substituir a unidade o mais rápido possível para evitar possíveis perdas de dados.

@ sj0h mencionou a Contagem do Ciclo de Carga, que é muito alta em 447.630. (A maioria dos discos rígidos modernos é projetada para suportar 600.000 ciclos de carga / descarga.) Isso geralmente é causado pelo recurso Advanced Power Management (APM), que tenta economizar energia estacionando as cabeças (descarregando-as das travessas) após alguns segundos de ocioso. As cabeças são carregadas de volta nos pratos quando necessário. Na maioria dos sistemas, onde os discos rígidos obtêm atividades intermitentes, dentro e fora, isso pode causar muitos ciclos de carga / descarga. Para desativar o APM, execute o seguinte comando no prompt raiz:

smartctl -s apm,off /dev/sda

Este comando precisará ser executado sempre que o sistema for ligado ou desligado ou a unidade for desligada, pois essa configuração não será mantida quando a unidade for desligada.

Na minha experiência, fazer isso reduzirá drasticamente o número de ciclos de carga / descarga e, consequentemente, as chances de você sofrer esse tipo de falha novamente no futuro. Observe, no entanto, que isso aumenta o consumo de energia e a temperatura da unidade. Se o inversor funcionar constantemente a temperaturas acima de 50 ° C, o risco de falha prematura aumentará; portanto, você pode deixar o APM ligado (ou ligá-lo se estiver desligado) durante os meses mais quentes.

bwDraco
fonte
2

Além das falhas de leitura, considere também a Contagem do Ciclo de Carga. Em quase 500.000, isso pode indicar um motivo para a falha ou pelo menos um alto desgaste do ciclo de carga. Há um ciclo de carga para cada minuto de tempo de inicialização. Depois de substituir a unidade, verifique se a nova unidade também não está fazendo isso.

sj0h
fonte
Muito boa observação. Como alguém pode diagnosticar por que a unidade está girando para baixo e fazendo backup a cada minuto?
dotancohen
@dotancohen, veja minha resposta - a culpa é do APM.
bwDraco
2

Sim, você tem 16 setores ilegíveis, tentou fazer vários testes que falharam aproximadamente na mesma área da unidade; portanto, faça backup com rapidez, mas lembre-se de que você já tem dados inacessíveis no momento. setores 92290592, 92290596.

Você pode ter outras áreas problemáticas, ainda não sabe se esses 16 setores são consecutivos ou espalhados. Se você deseja reproduzir após o backup, pode fazer um autoteste seletivo com -t select, startlba-endlba.

Current_Pending_Sector significa que o firmware do disco rígido tentou lê-lo, mas não pode, tentará algumas vezes mais (sempre que o sistema operacional solicitar) até falhar e marcá-lo como Offline_Incorrectable ou substituirá o setor danificado por outro setor sobressalente, se o O SO grava nele (aumentando assim o Reallocated_Sector_Ct ao fazê-lo).

Jorge Nerín
fonte
1

Eu substituiria pessoalmente a unidade. Se você, por algum motivo, ainda não quiser fazer isso, mas ainda demorar um pouco na unidade, precisará de uma maneira de garantir que você não use acidentalmente as áreas defeituosas para novos arquivos.

Eu tinha um drive assim em um Mac antigo apenas gravando vídeo e decidi que ainda não queria alterá-lo, pois os vídeos eram ótimos. Então, eu precisava isolar os erros. Primeiro, criei uma pasta vazia apenas para arquivos inválidos e, em seguida, tentei ler todos os arquivos existentes no disco e qualquer um com erro foi movido para o diretório de arquivos inválidos (espero que apenas sem importância).

Depois, criei muitos arquivos de um megabyte com um nome exclusivo para preencher o disco rígido (para que todo o espaço vazio estivesse agora em um desses arquivos de 1 MB) e depois repeti o procedimento. Todos os arquivos com erros neles foram movidos para o diretório de arquivos ruins e os restantes eram bons e podiam ser excluídos para recuperar o espaço incorreto.

Agora você pode usar a unidade um pouco mais, mas não a use para coisas importantes. Ele vai falhar mais e ele provavelmente irá ser inconveniente quando isso acontece.

Thorbjørn Ravn Andersen
fonte
1

Este não é um sinal muito bom. Você deve garantir que o conteúdo do disco seja copiado e não usá-lo para nada importante.

No entanto, vi discos com setores com falha que os realocavam e permaneciam operacionais por anos, para que você pudesse mantê-lo por um tempo, por exemplo, para coisas sem importância ou backups adicionais.

Uma coisa a fazer seria verificar quais arquivos foram corrompidos pelos setores ilegíveis e gravar nesses setores para forçar a realocação pelo disco (movendo-os de "Current_Pending_Sector" para "Reallocated_Sector_Ct"). Se estiver usando Linux, consulte http://smartmontools.sourceforge.net/badblockhowto.html . Depois que os setores foram realocados, o autoteste deve passar ou reportar setores mais ilegíveis.

Discordo da maioria das respostas, pois não acho que setores defeituosos sejam necessariamente uma indicação de falha iminente. Como diz http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , "todo disco rígido começa a produzir setores defeituosos em algum momento de sua vida".

a3nm
fonte
Enquanto eu concordo que a falha não é certa com um setor ruim acontecendo, a probabilidade de um driver falhar após um setor ruim aumenta significativamente (acho que isso também estava no relatório do google, mas não consigo encontrar a fonte real atualmente)
Dennis Nolte