Meu laptop recentemente se tornou um pouco confiável e, por algum motivo, comecei a suspeitar que meu disco rígido estava começando a falhar. Depois de pesquisar um pouco na internet, encontrei o Utilitário de Disco do Ubuntu no menu Sistema e executei os longos diagnósticos SMART a partir disso.
No entanto, como a documentação do Utilitário de Disco é muito ruim ( palimpsest
?), Não sei como interpretar os resultados:
Por exemplo, a taxa de erro de leitura é superior a 50 milhões (!), Mas a avaliação é classificada como "boa".
Então, alguém se importaria de me explicar como interpretar os resultados desses testes (especialmente os números Normalizado, Pior, Limiar e Valor)? E talvez me diga o que eles acham dos resultados que eu obtive para meu HDD? (Obrigado)
fonte
Respostas:
Você tem uma boa descrição de como o SMART funciona na wikipedia . Mas uma introdução rápida:
Valor: este é o valor bruto que o controlador relata. Normalmente, é um valor fácil de entender (como horas de funcionamento ou temperatura), mas às vezes não é (como a taxa de erro de leitura). Diferentes fabricantes podem usar estruturas e significados diferentes para esses dados.
Normalizado: este é o valor acima normalizado, portanto, um valor mais alto é sempre melhor. Portanto, 114 nas taxas de leitura / erro é melhor que 113. Novamente, como o disco rígido converte dados brutos em valor normalizado é específico do fornecedor.
Pior: o pior valor normalizado que sua unidade possuía no passado (onde 99 é provavelmente a configuração de fábrica).
Limiar: Quando o valor normalizado é menor que esse valor, é provável que a unidade falhe.
Portanto, seu disco rígido parece estar bem. O valor da taxa de erro de leitura não é o tempo em que sua unidade falhou, mas algumas estruturas de dados que dependem do fabricante do disco.
fonte
Sim, geralmente o valor bruto da taxa de erro de leitura é um absurdo. Os valores que você deseja observar são: a contagem do setor realocado, a contagem pendente e o offline incorrigíveis. Essa é a contagem de setores defeituosos que foram, estão esperando para serem corrigidos ou não podem ser corrigidos, e os valores brutos lá geralmente fazem sentido e são a contagem de setores.
Se a leitura de um setor falhar, ele ficará pendente. Na próxima vez que você tentar gravar nesse setor, a unidade tentará reescrevê-lo e, se funcionar, tudo voltará ao normal. Se não conseguir escrever corretamente o setor, ele irá realocá-lo do pool de reposição. Se não puder fazer isso (talvez já tenha usado o pool de reposição?), Ele se tornará offline_uncorrectable e tentar ler ou gravar nele apenas erros.
fonte
psusi acertou em cheio.
Se você ler as folhas de dados (white papers) do site seagate.com, verá como os discos rígidos são fabricados, testados e como eles realmente funcionam. Não existe um HDD perfeito, nunca existiu, nunca existirá (história e fato). Antigamente, tínhamos que inserir os setores defeituosos no controlador de disco rígido a partir de uma lista em papel que vinha na nova caixa da unidade, para que o controlador os ignore.
Unidades modernas têm correção de erros. Desde o primeiro dia, os setores são ruins.
Então, eles os mapeiam, isso significa que a unidade ignora setores defeituosos. De fato, eles são "trocados logicamente" - o setor ruim é mapeado para um setor novo e bom de cilindros sobressalentes (possui cilindros sobressalentes - pense nos cilindros como trilhos). Isso tudo é transparente para o mundo externo - exceto o utilitário SMART.
Cada fabricante pode fazer o que quiser, então alguns definem o erro como zero, mesmo que haja 10 setores defeituosos assim que a unidade for fabricada.
Há uma regra de 3 vezes no firmware da unidade - ele lê um setor 3 vezes e, se todas as 3 vezes estiver ruim, pode fazer uma "recalibração" em tempo real e ler mais 3 vezes. Se a unidade ainda não estiver ok, ele mapeará esse setor para um dos setores sobressalentes. Isso é profundo no firmware, mas acontece continuamente em segundo plano, tudo transparente para o usuário.
Se o fabricante optar por relatar erros brutos sempre que houver três leituras incorretas ou depois que a calibragem estiver de acordo com elas. Então, como ele disse acima, não é importante, a menos que você tenha muitas unidades do mesmo tipo e veja algumas tendências estranhas.
Ponto 2: todos os HDDs têm erros de leitura naturais; você também pode aprender isso na Seagate, se desejar. mas todos eles têm erros em tempo real. e são lidos novamente e geralmente passam no teste de erros de CRC. caso contrário, o DRIVE tenta trocá-lo. se você esfriar o disco, ele durará muito tempo e muitos deles nunca ficarão sem cilindros sobressalentes. mas veja isso como psusi lhe diz!
Estou digitando isso, em um PC antigo, executando um dos primeiros HDs de 1 GB já criados. e ainda é bom. (estou com backup) (sem falta de refrigeração ...) o calor é o assassino número 1 e a oscilação de energia, eu uso um no-break. Saúde e bom dia. Eu espero que isso ajude. (já viu uma falha no disco rígido do DatA General? e enche a sala com grandes quantidades de lã de alumínio, tachas encaracoladas? muita diversão naquela época ... nunca um momento de tédio ...
fonte