Estes erros SATA são perigosos?

36

Estou recebendo esses erros aleatoriamente e não sei se é normal ou não.

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

Também estou colando smartctl -apara sda , sdb e sdc .

Agradeço antecipadamente por sua ajuda.

Marcos Junior
fonte

Respostas:

16

Embora eu concorde essencialmente com a resposta de Geppettvs D'Constanzo , sugiro que algumas das primeiras coisas que você também possa tentar sejam:

  1. Verifique se o cabo SATA está firmemente conectado e conectado aos soquetes da placa-mãe e do disco rígido.

  2. Substituindo seu cabo SATA. Os cabos SATA são (relativamente) baratos e, às vezes, você recebe um cabo " ruim ". Geralmente, a simples substituição do cabo é a maneira mais fácil de diagnosticar e resolver um problema como esse.

(Embora seja um tanto inesperado que dois cabos sejam ruins ao mesmo tempo. Ainda assim, é uma coisa fácil de verificar, na minha opinião provavelmente vale a pena.)

Acabei de ver seus pastbins contendo os dados SMART de suas unidades. Observe o número inesperadamente grande de erros de CRC para unidades sdbe sdc. Sugiro que você comece verificando os cabos e as conexões dessas unidades.

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

ESTÁ BEM. Então não é um latpop então. ;-)
Obviamente, se isso estiver acontecendo em um laptop, nenhuma das opções acima se aplica e não tenho certeza de quais conselhos oferecer. Talvez remova e reinstale o disco rígido? Talvez apenas precise ser recolocado no soquete para melhorar a conexão?


sbde sdcestão conectados no mesmo cabo e-sata externo (Thermaltake Duo HDD Dock). vou substituir meu cabo e-sata.

Pode ser devido a um cabo defeituoso ou de baixa qualidade. Também pode ser que o cabo seja movido, colidido ou empurrado de alguma forma enquanto a unidade estiver sendo usada.

John irracional
fonte
1
sbde sdcambos estão conectados no mesmo cabo e-sata externo (Thermaltake Duo HDD Dock). vou substituir meu cabo e-sata.
Marcos Júnior
9

Parece que você tem um cabo de alimentação / dados SATA de qualidade ruim / danificado. O que pode estar causando CRCs ruins. Eles não são prejudiciais e você pode conviver com eles, mas em breve perderá muitos dados.

O relatório SMART de suas unidades de disco rígido parece sensato, por isso resolvo problemas de fonte de alimentação com base na minha experiência ao definir 5 unidades de disco rígido no mesmo gabinete / fonte de alimentação. Acabei de usar uma fonte de alimentação externa (475W) para 2 unidades e a caixa de 600W para todo o gabinete, incluindo GPU, unidades ópticas e de disco rígido.

De qualquer forma, sugiro que você execute um backup completo antes de fazer qualquer outra coisa. Se possível, clone sua unidade de disco rígido e depois verifique os cabos e as tensões da fonte de alimentação.

Geppettvs D'Constanzo
fonte
Por curiosidade, aquela GPU era uma GPU grande e com fome de energia?
irracional John
1
nVidia Quadro 4000, não com tanta fome mesmo.
Geppettvs D'Constanzo
1
Interessante. Tenho uma fonte de alimentação Antec (Neo-Eco) de 400w, 5 discos rígidos, 2 unidades ópticas e uma NVIDIA GeForce 9500 GT e não acho que tenha tido problemas relacionados à fonte de alimentação. Eu tenho erros CRC de unidade , mas acho que eles são de erros estúpidos do usuário que cometi há algum tempo. (Passando um cabo e coisas assim.) Não notei nenhum registro de aviso nas mensagens do meu kernel . Ainda assim, acho que devo vigiá-lo apenas para estar seguro.
irracional John
1
As unidades ópticas 1xIDE DVD-RW, 1xSATA DVD-RW e 1xSATA Blu-Ray ROM deste lado. 4 SATA e 1 IDE HDD, GPU é 142 Watts de consumo de energia. Não posso dizer que tenho certeza absoluta de que se tratava de problemas de fonte de energia, mas quando adicionei a nova fonte de energia, os problemas desapareceram. BTW, minhas unidades parecem estar saudáveis. Mas obrigado por me fazer ver isso. Sua opinião é realmente apreciada neste lado. Obrigado!
Geppettvs D'Constanzo
1
142 watts para uma GPU é ... alguma coisa. Meu sistema inteiro (geralmente) usa menos que isso. Enquanto digito isso, minha caixa de desktop está puxando ~ 117 watts. (De acordo com o Kill-A-Watt Eu tinha esquecido que ainda tenho-lo ligado ao ;-).
irracional John
4

Parece haver um problema entre algumas versões do kernel e alguns controladores SATA.

Recentemente, comecei a sofrer um problema muito semelhante (não tenho certeza se é o mesmo) em um servidor Web executando o Scientific Linux.

As informações mais precisas e completas que encontrei sobre esse problema são este bug da barra de ativação .

Resumindo: desabilitar o NCQ parece ser a melhor solução alternativa para usuários com esse problema.

jap1968
fonte
3
Desabilitar o NCQ é uma solução comum para o hardware com bugs. Não parece haver um bug do kernel.
psusi
Santo $ #! + Que funcionou! Todas as minhas mensagens de erro foram embora e meu sistema parou de funcionar! Eu discordo inteiramente de não ser um bug do kernel, pois posso usar a versão mais antiga do kernel (desde a série 2.6, pelo menos) sem nenhuma falha. Não acredito que não encontrei isso antes!
reukiodo 20/10
1

Isso quase sempre é uma unidade defeituosa, tenho milhares de unidades que usamos e, embora esses erros nunca causem falha na unidade, eles resultaram em corrupção do sistema de arquivos. Eu acho que realmente tem a ver com um problema com a placa controladora na unidade.

Eu tentei de tudo para resolver esse problema, a correção é substituir a unidade e as coisas funcionam nos mesmos cabos e controladores.

Boa sorte

user209235
fonte
Depois de mais de 30 anos solucionando esses problemas, posso garantir que, na minha experiência, isso quase sempre é um cabo desonesto. E, como são baratos, tente primeiro.
Elder Geek
0

Eu sei que esse segmento é antigo, mas recentemente encontrei o mesmo problema em uma máquina recém-adquirida com 6 slots SATA. Eu instalei o cdrom e o hardrive em 2 slots sata próximos um do outro e, em seguida, instalei o ubuntu sem erros até reiniciar, depois vi o ata8: hard resetting error error. A máquina pára até este ponto nunca recuperado. Tentei reiniciar por algumas vezes e não funcionou. E então eu tentei substituir o disco rígido em um dos 4 slots disponíveis e funcionou bem sem problemas.

ultrajohn
fonte
Quer dizer que você alterou a porta SATA na qual o disco rígido foi conectado, certo? Ou você quer dizer substituir todo o disco rígido por outro? Eu acho que é o primeiro, mas apenas de duplo controlo
Xen2050
É o primeiro.
ultrajohn
0

Teve o mesmo problema - no meu caso, isso ocorreu porque o adaptador de alimentação de 4 pinos para SATA não estava sendo conectado corretamente.

Andrei Pokrovsky
fonte
0

Eu tive o mesmo problema. Eu tinha tentado de tudo, mas somente na porta j-micron do meu asus p5k não tive os erros.

Mas quando eu coloquei a unidade em outra fonte, ela funcionou e os erros desapareceram. Em seguida, coloquei a unidade de volta na fonte de alimentação original, mas com um novo conector de energia e que também funcionou.

Martin Van Der Meulen
fonte
0

Eu sei que esta discussão é antiga, mas acabou de encontrar o mesmo problema, veio aqui do google.

  • ficando ata3.01: failed command: READ FPDMA QUEUEDem iniciar o LiveCD do Kubuntu 16.04.
  • O WINDOWS 7 se comportará de maneira irregular, funciona bem por um tempo, mas congela após assistir ao youtube.

Alterar o cabo SATA não fez nada.
Substituiu o PSU e o problema desapareceu.

marco_roboto
fonte
0

É improvável que esse erro danifique seu disco rígido, mas é altamente provável que corrompa seu (s) sistema (s) de arquivos. Comece determinando qual unidade está lançando os erros. Isso geralmente pode ser determinado facilmente por várias abordagens, como:

1) Emitindo o comando dmesg | grep ata3e procurando a marca e o modelo do disco rígido. (como ata3 é a porta que está lançando o erro na sua situação. Ajuste de acordo) isso fornecerá uma saída semelhante a esta:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

Uma rápida olhada indica que o drive conectado ao ata3 é o SAMSUNG HD103SJ

2) Emita o comando abaixo:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Isso fornecerá as portas e os nomes dos dispositivos destacados na mesma linha, como mostrado abaixo:

saída

É fácil ver que o dispositivo conectado ao ata3 recebeu o nome de dispositivo sdb

3) instale o lsscsi sudo apt install lsscsie emita o comandolsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Observe que a primeira entrada em cada linha acima é o scsi_host, channel, target_number e LUN. É colocado entre colchetes e cada elemento é separado por dois pontos. Quando existem vários dispositivos SCSI, suas entradas são classificadas em ordem crescente.

Simplesmente adicionar 1 ao primeiro número em cada linha de saída fornece a porta ATA. Você pode encontrar mais detalhes lsscsi aqui e aqui.

Como no seu caso, estamos vendo erros gerados nas versões 3.00 e 3.01, você tem mais de uma unidade conectada à mesma porta ATA. Você deseja verificar cuidadosamente a conectividade para o ata3.00 e o ata3.01. Esse pode ser um gabinete de unidade com vários compartimentos conectado ao mesmo cabo. Como as duas unidades estão apresentando erros, a substituição do cabo no compartimento de várias unidades mencionado acima deve eliminar o problema de ambas as unidades. Esses dispositivos geralmente têm uma fonte de energia externa que também pode ser a culpada e precisa ser substituída, mas o cabo (sendo o elo mais fraco) é de longe a causa raiz mais provável do problema.

Fontes:

Experiência

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

Elder Geek
fonte