Como interpreto os resultados SMD do HDD?

58

Meu laptop recentemente se tornou um pouco confiável e, por algum motivo, comecei a suspeitar que meu disco rígido estava começando a falhar. Depois de pesquisar um pouco na internet, encontrei o Utilitário de Disco do Ubuntu no menu Sistema e executei os longos diagnósticos SMART a partir disso.

No entanto, como a documentação do Utilitário de Disco é muito ruim ( palimpsest?), Não sei como interpretar os resultados:

Valor acima de 50 milhões para uma taxa de erro de leitura, mas o teste é bom ?!

Por exemplo, a taxa de erro de leitura é superior a 50 milhões (!), Mas a avaliação é classificada como "boa".

Então, alguém se importaria de me explicar como interpretar os resultados desses testes (especialmente os números Normalizado, Pior, Limiar e Valor)? E talvez me diga o que eles acham dos resultados que eu obtive para meu HDD? (Obrigado)

hard-drive smart Marty
fonte

O "ECC de hardware recuperou" o mesmo valor de "Taxa de erro de leitura"? Meu disco possui 676 ciclos de energia, foi ligado 285 dias e possui 193 milhões de erros. Comparado com o meu, seu disco tem muitos erros, mas estou especulando aqui. De qualquer forma, eu só fiquei preocupado oO

danizmax

Yip - os dois números são os mesmos!

Marty

54

Você tem uma boa descrição de como o SMART funciona na wikipedia . Mas uma introdução rápida:

Valor: este é o valor bruto que o controlador relata. Normalmente, é um valor fácil de entender (como horas de funcionamento ou temperatura), mas às vezes não é (como a taxa de erro de leitura). Diferentes fabricantes podem usar estruturas e significados diferentes para esses dados.
Normalizado: este é o valor acima normalizado, portanto, um valor mais alto é sempre melhor. Portanto, 114 nas taxas de leitura / erro é melhor que 113. Novamente, como o disco rígido converte dados brutos em valor normalizado é específico do fornecedor.
Pior: o pior valor normalizado que sua unidade possuía no passado (onde 99 é provavelmente a configuração de fábrica).
Limiar: Quando o valor normalizado é menor que esse valor, é provável que a unidade falhe.

Portanto, seu disco rígido parece estar bem. O valor da taxa de erro de leitura não é o tempo em que sua unidade falhou, mas algumas estruturas de dados que dependem do fabricante do disco.

Javier Rivera
fonte

se uma unidade específica não estiver relatando um valor normalizado , isso significa pior e limite será relatado em termos ou todas as unidades usam valores normalizados e apenas alguns optam por rotulá-los como apenas "valor"?

DeveloperACE

25

Sim, geralmente o valor bruto da taxa de erro de leitura é um absurdo. Os valores que você deseja observar são: a contagem do setor realocado, a contagem pendente e o offline incorrigíveis. Essa é a contagem de setores defeituosos que foram, estão esperando para serem corrigidos ou não podem ser corrigidos, e os valores brutos lá geralmente fazem sentido e são a contagem de setores.

Se a leitura de um setor falhar, ele ficará pendente. Na próxima vez que você tentar gravar nesse setor, a unidade tentará reescrevê-lo e, se funcionar, tudo voltará ao normal. Se não conseguir escrever corretamente o setor, ele irá realocá-lo do pool de reposição. Se não puder fazer isso (talvez já tenha usado o pool de reposição?), Ele se tornará offline_uncorrectable e tentar ler ou gravar nele apenas erros.

psusi
fonte

1

Eu tenho uma unidade que está praticamente falhando na taxa de erro de leitura bruta. O teste falha apenas depois que a unidade estiver em execução por um tempo, talvez 15 minutos; no Windows, o sintoma é que qualquer acesso à unidade interrompe o processo, por isso estou usando as ferramentas do Ubuntu para determinar o que está errado, mas não sei o que está dizendo que está errado com a unidade, pois a taxa de erro de leitura não ' parece indicar qualquer tipo de falha iminente da unidade - mas a unidade definitivamente tem problemas!

Michael

Devo acrescentar também que os resultados dos testes são ambíguos. O teste geral diz que falhou, mas o teste da taxa de erro de leitura, apesar de ter um valor ridículo (100/100, o pior, normalizado) diz "Ok".

Michael

9

psusi acertou em cheio.

Se você ler as folhas de dados (white papers) do site seagate.com, verá como os discos rígidos são fabricados, testados e como eles realmente funcionam. Não existe um HDD perfeito, nunca existiu, nunca existirá (história e fato). Antigamente, tínhamos que inserir os setores defeituosos no controlador de disco rígido a partir de uma lista em papel que vinha na nova caixa da unidade, para que o controlador os ignore.

Unidades modernas têm correção de erros. Desde o primeiro dia, os setores são ruins.

Então, eles os mapeiam, isso significa que a unidade ignora setores defeituosos. De fato, eles são "trocados logicamente" - o setor ruim é mapeado para um setor novo e bom de cilindros sobressalentes (possui cilindros sobressalentes - pense nos cilindros como trilhos). Isso tudo é transparente para o mundo externo - exceto o utilitário SMART.

Cada fabricante pode fazer o que quiser, então alguns definem o erro como zero, mesmo que haja 10 setores defeituosos assim que a unidade for fabricada.

Há uma regra de 3 vezes no firmware da unidade - ele lê um setor 3 vezes e, se todas as 3 vezes estiver ruim, pode fazer uma "recalibração" em tempo real e ler mais 3 vezes. Se a unidade ainda não estiver ok, ele mapeará esse setor para um dos setores sobressalentes. Isso é profundo no firmware, mas acontece continuamente em segundo plano, tudo transparente para o usuário.

Se o fabricante optar por relatar erros brutos sempre que houver três leituras incorretas ou depois que a calibragem estiver de acordo com elas. Então, como ele disse acima, não é importante, a menos que você tenha muitas unidades do mesmo tipo e veja algumas tendências estranhas.

Ponto 2: todos os HDDs têm erros de leitura naturais; você também pode aprender isso na Seagate, se desejar. mas todos eles têm erros em tempo real. e são lidos novamente e geralmente passam no teste de erros de CRC. caso contrário, o DRIVE tenta trocá-lo. se você esfriar o disco, ele durará muito tempo e muitos deles nunca ficarão sem cilindros sobressalentes. mas veja isso como psusi lhe diz!

Estou digitando isso, em um PC antigo, executando um dos primeiros HDs de 1 GB já criados. e ainda é bom. (estou com backup) (sem falta de refrigeração ...) o calor é o assassino número 1 e a oscilação de energia, eu uso um no-break. Saúde e bom dia. Eu espero que isso ajude. (já viu uma falha no disco rígido do DatA General? e enche a sala com grandes quantidades de lã de alumínio, tachas encaracoladas? muita diversão naquela época ... nunca um momento de tédio ...

jtgh
fonte

Como interpreto os resultados SMD do HDD?

Respostas: