Como interpreto os resultados SMD do HDD?

58

Meu laptop recentemente se tornou um pouco confiável e, por algum motivo, comecei a suspeitar que meu disco rígido estava começando a falhar. Depois de pesquisar um pouco na internet, encontrei o Utilitário de Disco do Ubuntu no menu Sistema e executei os longos diagnósticos SMART a partir disso.

No entanto, como a documentação do Utilitário de Disco é muito ruim ( palimpsest?), Não sei como interpretar os resultados:

Valor acima de 50 milhões para uma taxa de erro de leitura, mas o teste é bom ?!

Por exemplo, a taxa de erro de leitura é superior a 50 milhões (!), Mas a avaliação é classificada como "boa".

Então, alguém se importaria de me explicar como interpretar os resultados desses testes (especialmente os números Normalizado, Pior, Limiar e Valor)? E talvez me diga o que eles acham dos resultados que eu obtive para meu HDD? (Obrigado)

Marty
fonte
O "ECC de hardware recuperou" o mesmo valor de "Taxa de erro de leitura"? Meu disco possui 676 ciclos de energia, foi ligado 285 dias e possui 193 milhões de erros. Comparado com o meu, seu disco tem muitos erros, mas estou especulando aqui. De qualquer forma, eu só fiquei preocupado oO
danizmax
Yip - os dois números são os mesmos!
Marty

Respostas:

54

Você tem uma boa descrição de como o SMART funciona na wikipedia . Mas uma introdução rápida:

  • Valor: este é o valor bruto que o controlador relata. Normalmente, é um valor fácil de entender (como horas de funcionamento ou temperatura), mas às vezes não é (como a taxa de erro de leitura). Diferentes fabricantes podem usar estruturas e significados diferentes para esses dados.

  • Normalizado: este é o valor acima normalizado, portanto, um valor mais alto é sempre melhor. Portanto, 114 nas taxas de leitura / erro é melhor que 113. Novamente, como o disco rígido converte dados brutos em valor normalizado é específico do fornecedor.

  • Pior: o pior valor normalizado que sua unidade possuía no passado (onde 99 é provavelmente a configuração de fábrica).

  • Limiar: Quando o valor normalizado é menor que esse valor, é provável que a unidade falhe.

Portanto, seu disco rígido parece estar bem. O valor da taxa de erro de leitura não é o tempo em que sua unidade falhou, mas algumas estruturas de dados que dependem do fabricante do disco.

Javier Rivera
fonte
se uma unidade específica não estiver relatando um valor normalizado , isso significa pior e limite será relatado em termos ou todas as unidades usam valores normalizados e apenas alguns optam por rotulá-los como apenas "valor"?
DeveloperACE
25

Sim, geralmente o valor bruto da taxa de erro de leitura é um absurdo. Os valores que você deseja observar são: a contagem do setor realocado, a contagem pendente e o offline incorrigíveis. Essa é a contagem de setores defeituosos que foram, estão esperando para serem corrigidos ou não podem ser corrigidos, e os valores brutos lá geralmente fazem sentido e são a contagem de setores.

Se a leitura de um setor falhar, ele ficará pendente. Na próxima vez que você tentar gravar nesse setor, a unidade tentará reescrevê-lo e, se funcionar, tudo voltará ao normal. Se não conseguir escrever corretamente o setor, ele irá realocá-lo do pool de reposição. Se não puder fazer isso (talvez já tenha usado o pool de reposição?), Ele se tornará offline_uncorrectable e tentar ler ou gravar nele apenas erros.

psusi
fonte
1
Eu tenho uma unidade que está praticamente falhando na taxa de erro de leitura bruta. O teste falha apenas depois que a unidade estiver em execução por um tempo, talvez 15 minutos; no Windows, o sintoma é que qualquer acesso à unidade interrompe o processo, por isso estou usando as ferramentas do Ubuntu para determinar o que está errado, mas não sei o que está dizendo que está errado com a unidade, pois a taxa de erro de leitura não ' parece indicar qualquer tipo de falha iminente da unidade - mas a unidade definitivamente tem problemas!
Michael
Devo acrescentar também que os resultados dos testes são ambíguos. O teste geral diz que falhou, mas o teste da taxa de erro de leitura, apesar de ter um valor ridículo (100/100, o pior, normalizado) diz "Ok".
Michael
9

psusi acertou em cheio.

Se você ler as folhas de dados (white papers) do site seagate.com, verá como os discos rígidos são fabricados, testados e como eles realmente funcionam. Não existe um HDD perfeito, nunca existiu, nunca existirá (história e fato). Antigamente, tínhamos que inserir os setores defeituosos no controlador de disco rígido a partir de uma lista em papel que vinha na nova caixa da unidade, para que o controlador os ignore.

Unidades modernas têm correção de erros. Desde o primeiro dia, os setores são ruins.

Então, eles os mapeiam, isso significa que a unidade ignora setores defeituosos. De fato, eles são "trocados logicamente" - o setor ruim é mapeado para um setor novo e bom de cilindros sobressalentes (possui cilindros sobressalentes - pense nos cilindros como trilhos). Isso tudo é transparente para o mundo externo - exceto o utilitário SMART.

Cada fabricante pode fazer o que quiser, então alguns definem o erro como zero, mesmo que haja 10 setores defeituosos assim que a unidade for fabricada.

Há uma regra de 3 vezes no firmware da unidade - ele lê um setor 3 vezes e, se todas as 3 vezes estiver ruim, pode fazer uma "recalibração" em tempo real e ler mais 3 vezes. Se a unidade ainda não estiver ok, ele mapeará esse setor para um dos setores sobressalentes. Isso é profundo no firmware, mas acontece continuamente em segundo plano, tudo transparente para o usuário.

Se o fabricante optar por relatar erros brutos sempre que houver três leituras incorretas ou depois que a calibragem estiver de acordo com elas. Então, como ele disse acima, não é importante, a menos que você tenha muitas unidades do mesmo tipo e veja algumas tendências estranhas.

Ponto 2: todos os HDDs têm erros de leitura naturais; você também pode aprender isso na Seagate, se desejar. mas todos eles têm erros em tempo real. e são lidos novamente e geralmente passam no teste de erros de CRC. caso contrário, o DRIVE tenta trocá-lo. se você esfriar o disco, ele durará muito tempo e muitos deles nunca ficarão sem cilindros sobressalentes. mas veja isso como psusi lhe diz!

Estou digitando isso, em um PC antigo, executando um dos primeiros HDs de 1 GB já criados. e ainda é bom. (estou com backup) (sem falta de refrigeração ...) o calor é o assassino número 1 e a oscilação de energia, eu uso um no-break. Saúde e bom dia. Eu espero que isso ajude. (já viu uma falha no disco rígido do DatA General? e enche a sala com grandes quantidades de lã de alumínio, tachas encaracoladas? muita diversão naquela época ... nunca um momento de tédio ...

jtgh
fonte