Recebi essa mensagem em /var/log/messages
:
Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47
#smartctl -a /dev/sda
:
smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0)
195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
Isso significa que o disco está falhando e eu tenho que substituí-lo? Onde posso ler sobre a interpretação dos resultados dos testes SMART?
Um valor alto para esse atributo é realmente muito bom:
https://kb.acronis.com/content/9131
fonte
Primeiro, valores mais baixos são piores para o SMART, e não valores mais altos (observe como a coluna de limite é sempre menor que o valor atual). Portanto, um aumento de valor não é motivo de preocupação. (Esta regra não se aplica aos valores brutos, no entanto.)
Os valores SMART tendem a oscilar um pouco (o seu pode estar entre 46 e 47, por exemplo, portanto, mesmo pequenas alterações podem fazer com que ele mude para outro valor).
Sua
smartctl -a
saída mostra que o pior valor foi 45, portanto oscilando um pouco acima do normal.Para obter mais informações, consulte os atributos Wikipedia: ATA SMART .
fonte
Lembre-se de que mesmo o extenso estudo realizado pelo Google constatou que um grande número de falhas na unidade não foi previsto por erros SMART. É possível que o que você vê seja perfeitamente normal, mas como cada fabricante possui métricas diferentes para converter os valores brutos nos valores relatados, é difícil dizer com certeza se sua unidade está enfrentando muitos erros ou não. No entanto, um número bruto tão grande me parece estranho.
Eu recomendaria ler toda a unidade (dd ou rsync'ing para uma nova unidade) e verificar os valores SMART à medida que avança. Se você vir esse número bruto ou os valores relatados, mude bastante. Eu começaria a procurar substituir a unidade.
fonte
Nada de errado com isso.
Você sempre pode correr
Depois de algumas horas, consulte o resultado
só pra ter certeza.
fonte
O ECRC de hardware do IIRC recuperado é a correção de erros nas leituras do disco, o que não é incomum para um disco, e eles codificam os dados com mecanismos de correção de erros exatamente por esse motivo. Alguns controladores também oferecem suporte a informações redundantes nos setores do disco e adicionam outra camada de correção de erros.
Como Dave Cheney afirma, os números devem ser monitorados ao longo do tempo. Mudanças radicais nessas estatísticas são uma indicação de falha na unidade. Além disso, fique de olho nas listas de defeitos aumentados - se a lista de defeitos aumentados começar a aumentar ou as estatísticas SMART começarem a mudar significativamente, você deverá substituir a unidade profilaticamente.
fonte