Como determinar o quão morto está um HDD do relatório SMARTCTL

11

Hoje tive um relatório aleatório em um terminal aberto dizendo que "Meu disco rígido está prestes a falhar!"

Fiz alguns testes e não tenho certeza do quanto isso é ruim. O computador está funcionando bem, mas fui em frente e empurrei todo o meu trabalho para o github. Não quero continuar trabalhando neste computador se houver uma chance de ele travar e eu vou perder tudo.

O drive é um HDD - Western Digital Caviar SE Serial ATA

Como deve ser um smartctl normal para uma unidade estável?

Atributos SMART:

insira a descrição da imagem aqui

O teste falha:

insira a descrição da imagem aqui

novo Objekt
fonte
Você está realmente falando sobre um SSD? Especialmente, Spin_Up_Timeme surpreende no contexto dos SSDs.
Mpy
Sim, aparentemente não é. Eu confundi as letras da unidade na época. Tenho mais de 5 unidades conectadas a esta máquina e todas elas têm tamanhos semelhantes.
new Objekt
Atualize sua pergunta de acordo com a pergunta e também a resposta de DavidPostill se encaixa na pergunta.
Mpy
@mpy Concluído. A resposta de Davi parece estar bem sem nenhuma edição.
new Objekt 02/02

Respostas:

11

Eu fiz alguns testes e não tenho certeza do quanto isso é ruim

Resposta curta:

Faça backup dessa unidade e substitua imediatamente .

Resposta longa:

Uma empresa chamada Backblaze coletou dados sobre falhas no disco rígido. Ele divulgou esses dados nos blogs da empresa, destacando quais unidades do fabricante falharam com mais frequência do que outras.

Em um blog recente , publicou dados indicando exatamente quais 5 atributos SMART indicam falha iminente da unidade:

Por experiência, descobrimos que as 5 seguintes métricas SMART indicam falha iminente na unidade de disco:

  • SMART 5 - Realocados_Setor_Contagem.
  • SMART 187 - Reported_Uncorrectable_Errors.
  • SMART 188 - Command_Timeout.
  • SMART 197 - Current_Pending_Sector_Count.
  • SMART 198 - Off-line_Não corrigível.

Escolhemos essas cinco estatísticas com base em nossa experiência e na contribuição de outras pessoas do setor, porque elas são consistentes entre os fabricantes e são bons preditores de falha.

O artigo continua sugerindo:

SMART 5: Reallocated_Sector_Count
1-4 keep an eye on it, more than 4 replace

SMART 187: Reported_Uncorrect
1 or more replace

SMART 188: Command_Timeout
1-13 keep an eye on it, more than 13 replace

SMART 197: Current_Pending_Sector_Count
1 or more replace

SMART 198: Offline_Uncorrectable
1 or more replace

No seu caso, 5 (valor bruto 2), 197 (valor bruto 484) e 198 (valor bruto 371) estão mostrando sinais de falha.

DavidPostill
fonte