Como redefinir os resultados SMART

16

Como posso redefinir os resultados do SMART para que ele não registre resultados anteriores. Minha razão é que eu estava testando os discos rígidos fechados juntos em um gabinete fechado. Isso fez com que um dos HDD falhasse na leitura da temperatura do fluxo de ar.

Depois de abrir a caixa (que abaixou a temperatura de todas as unidades em 10 graus Celsius em 5 minutos) e depois separar as unidades um pouco mais (3 a menos graus) Todos os resultados foram bons, mas como a leitura do fluxo de ar falhou em uma leitura anterior, sempre mostra como falhando.

Então, como posso redefinir as leituras do SMART?

insira a descrição da imagem aqui

Luis Alvarado
fonte
11
Eu acho que você pode usar o Mhdd para desligar inteligente. É com as ferramentas de disquete em sysresccd.org/System-tools que não é a melhor idéia ... mas pode valer a pena investigar.
Mateo
2
Por que você deseja redefini-lo?
Angelo
Bem, isso foi basicamente há 3 anos, mas acho que foi porque, naquele momento, o HDD estava em um lugar que tinha MUITO calor externo. Depois de movê-lo para uma sala com clima mais frio, o problema ainda persistia, embora a temperatura passasse de 68 para 37 graus. Portanto, o problema foi um aumento de temperatura externo que o criou no início, mas ainda estava aparecendo depois de movê-lo para outro local.
Luis Alvarado

Respostas:

0

Os discos rígidos têm espaço livre por motivos de recuperação. A recuperação acontece automaticamente. As ferramentas de recuperação apenas remapearam setores fisicamente ruins para esse espaço livre. Uma vez remapeado, quando uma leitura ou gravação ocorre em um setor defeituoso, a unidade ativa o acesso ao espaço livre e oculta o erro.

Para ser sincero, não sei como redefinir os dados SMART. É algo que o disco rígido mantém internamente e, em qualquer caso, seria uma coisa ruim a se fazer.

A SMART relata que seu disco rígido está falhando! A redefinição dos contadores não altera o fato de que um limite de erro para o inversor foi excedido.

Portanto, NÃO, você não pode redefinir o histórico SMART. Ele é instalado na fábrica para avaliação da unidade em caso de falha. O SMART só pode ser desativado ou ativado.

Espero que isso responda à sua pergunta.

Mitch
fonte
Oi Mitch, como explicado na pergunta, a falha não é real. Isso ocorreu porque todos os HDDs foram colocados muito fechados em um espaço pouco ventilado. Depois de mudar isso e testar novamente, estava funcionando perfeitamente, exceto que ainda mencionava o fracasso passado. No momento, fiz o seguinte sudo smartctl -l sataphy, reset / dev / sdd, que resolveu o problema da avaliação geral, levando em consideração a falha anterior que agora parece normal, mas a falha ainda aparece para o atributo específico. Novamente, o disco rígido não está realmente falhando, mas o erro anterior ainda é exibido.
Luis Alvarado
Eu entendo, mas pode parecer normal, apenas oculto. Você perguntou se isso pode ser redefinido e a resposta é NÃO. Mesmo que você tenha conseguido ocultar o erro, depois que a unidade for ao fabricante por qualquer motivo, eles poderão descobrir o que realmente deu errado com a unidade ao longo do tempo. Tudo o que estou dizendo é que o erro anterior ainda é exibido e, a menos que você possa usar as ferramentas usadas pelos fabricantes, para restabelecer o status SMART da unidade, ele ainda será exibido.
Mitch
26

Na verdade, existe uma maneira de redefinir os dados SMART. Você só precisa de um conversor simples de rs232 para usb (uart para ttl) e alguns cabos conectados às interfaces de diagnóstico do hdds. (fica no lado direito da porta sata, 5 ou 4 pinos) Você deve conectar os cabos RX TX e GND (e o cabo de alimentação, é claro: D) e depois ligar o HDD e conectar-o com massa ou hiperterminal (o linux pode se conectar a ele próprio terminal, eu acho), por exemplo, para unidades Seagate: para a taxa de transmissão 7200.10 e mais antiga é 9600 para 7200.11 e a mais recente é 38400

comandos após a conexão, pressione CTRL + Z e digite "/ 1" pressione enter, digite "N1" pressione enter quando terminar, remova todos os cabos e ligue o disco rígido normalmente para ver as alterações :)

para outras informações do disco rígido, use o google :)

MRX
fonte
5
Isso parece se aplicar apenas às unidades da Seagate, mas você está certo, este vídeo explica o processo.
Adrian Frühwirth 24/02
5
Um dos meus colegas de trabalho entrou em contato com a Seagate e eles nos disseram que, desde então, bloquearam esse recurso para que ele não pudesse ser acessado sem uma ferramenta proprietária. Não tenho certeza em que ponto eles fizeram isso.
JFA
4

Os dados SMART não são muito padrão entre os fabricantes, mas o teste de temperatura do disco rígido deve indicar se a temperatura da unidade ultrapassou um limite no passado: http://en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes

O pensamento é que um superaquecimento aumenta suas chances de falha. A SMART não está dizendo que sua unidade é ruim, mas tem uma chance maior de falha no futuro.

O SMART é uma auditoria do histórico das unidades e é mantido pela própria unidade, para que você não possa "redefinir" ou "limpar" os valores SMART.

SlightlyCuban
fonte
3

O ponto dos atributos atuais / piores, como temperatura, é exatamente o seguinte: para informar se o inversor já esteve fora da temperatura máxima de operação e, portanto, pode ter sofrido danos permanentes.

É por isso que diz "falhou no passado", não "falhou agora": você apenas tocou no limite de temperatura máxima. Observe que a exibição do atributo mostra "normalizado: 50, limite: 45, pior: 45". (Esses são valores normalizados de 0..200, como para qualquer outro atributo, não temps Celsius brutos.)

Você também possui alguns setores defeituosos (erros incorretos do setor); portanto, se a breve alta temperatura causou isso ou não, provavelmente é hora de abandonar a unidade.

Uma interface do usuário do software SMART melhor mostraria a temperatura atual e máxima de sempre . por exemplo,
smartctl -a /dev/sdaou smartctl -x /dev/sda( -ximprime todos os dados SMART e não SMART disponíveis que podem ser obtidos da unidade, incluindo um registro do histórico de temperatura, se a unidade tiver um, com um gráfico de barras ASCII.)

O smartctl -x inclui isso para um disco rígido WD Green de 1TB (WD10EADS) antigo:

Current Temperature:                    36 Celsius
Power Cycle Min/Max Temperature:     25/42 Celsius
Lifetime    Min/Max Temperature:     35/46 Celsius

O software que você está usando parece apenas mostrar a temperatura atual, que está um pouco abaixo do limite, mas não oculta o fato de que a unidade estava fora de especificação em algum momento no passado.


Você certamente poderia justificar ignorar a alta temperatura momentânea, se realmente a corrigisse em minutos. Mas você nunca (ou não deveria) conseguir fazer a própria unidade mentir sobre o fato de estar acima da temperatura máxima nominal por algum tempo e, portanto, o atributo falhou no passado.

Você pode configurar smartdpara ignorar qualquer atributo, para que você ainda possa receber uma notificação útil se qualquer outra coisa ultrapassar um limite em território com falha oficial. : smartd.conf(5)diz:

-i ID [ATA only]Ignore o ID do número de atributo do dispositivo ao verificar a falha dos Atributos de Uso. O ID deve ser um número inteiro decimal no intervalo de 1 a 255. Esta diretiva modifica o comportamento da diretiva '-f' e não tem efeito sem ele.

Isso é útil, por exemplo, se você tiver um disco muito antigo e não quiser continuar recebendo mensagens sobre a falha do Atributo com horas de duração (geralmente, Atributo 9). Esta diretiva pode aparecer várias vezes para um único dispositivo, se você deseja ignorar vários atributos.


Atributos estendidos de histórico de temperatura

Acabei de adquirir um novo Seagate Barracuda de 6 TB (firmware ST6000DM003-2CY186 0001, uma unidade de 5425 RPM), que possui algumas estatísticas interessantes, incluindo tempo gasto excedendo pontos de operação mínimos / máximos e alto / baixo de temperaturas temporárias de curto e longo prazo .

SCT Status Version:                  3
SCT Version (vendor specific):       522 (0x020a)
Device State:                        Active (0)
Current Temperature:                    33 Celsius
Power Cycle Min/Max Temperature:     27/33 Celsius
Lifetime    Min/Max Temperature:     27/33 Celsius
Under/Over Temperature Limit Count:   0/0

SCT Temperature History Version:     2
Temperature Sampling Period:         3 minutes
Temperature Logging Interval:        59 minutes
Min/Max recommended Temperature:     14/55 Celsius
Min/Max Temperature Limit:           10/60 Celsius
Temperature History Size (Index):    128 (2)

E na seção de detalhes completos:

0x05  =====  =               =  ===  == Temperature Statistics (rev 1) ==
0x05  0x008  1              33  ---  Current Temperature
0x05  0x010  1               -  ---  Average Short Term Temperature
0x05  0x018  1               -  ---  Average Long Term Temperature
0x05  0x020  1              33  ---  Highest Temperature
0x05  0x028  1              30  ---  Lowest Temperature
0x05  0x030  1               -  ---  Highest Average Short Term Temperature
0x05  0x038  1               -  ---  Lowest Average Short Term Temperature
0x05  0x040  1               -  ---  Highest Average Long Term Temperature
0x05  0x048  1               -  ---  Lowest Average Long Term Temperature
0x05  0x050  4               0  ---  Time in Over-Temperature
0x05  0x058  1              55  ---  Specified Maximum Operating Temperature
0x05  0x060  4               0  ---  Time in Under-Temperature
0x05  0x068  1              13  ---  Specified Minimum Operating Temperature

(A unidade só foi ligada por alguns minutos; provavelmente é por isso que não -há dados em alguns campos).

Se você dirigir esses atributos estendidos, poderá mostrar a alguém que o tempo gasto fora da temperatura permitida foi muito curto (se for esse o caso). Presumivelmente, se você modificasse os dados SMART, teria feito isso e removido qualquer menção de estar fora de alcance, mas obviamente você não pode confiar 100% em nenhum dado de um drive de segunda mão que alguém está tentando vender você.

Consulte /superuser/1389522/what-does-it-mean-when-my-new-hdd-reports-errors-at-a-time-that-shouldnt-exist para obter mais informações sobre unidades usadas com "reversão do odômetro" no atributo "Power_On_Hours", por exemplo.

Peter Cordes
fonte
Obrigado Peter pela análise completa aqui. Muito apreciado.
Luis Alvarado
0

Que eu saiba, a única maneira de pará-lo é desativar o SMART no BIOS. Isso apenas interromperá o HARDWARE.

Seu sistema operacional ainda consultará a unidade em busca de informações SMART e informará que está falhando.

Jesseryte
fonte