Por que meus discos rígidos estão falhando?

23

Eu tenho um pequeno servidor Ubuntu rodando em casa, com 2 discos rígidos. Existem dois ataques de software (raid1) nos discos, gerenciados pelo mdadm, que considero irrelevantes, mas que são mencionados de qualquer maneira.

Ambos os discos rígidos são da Western Digital e são usados ​​há cerca de 2 anos, quando um deles começou a fazer barulhos de cliques e morreu. Achei que talvez fosse natural depois de dois anos, então comprei um novo e ressincronizei os arrays de ataque. Após cerca de um mês, a outra unidade também morreu.

Não fiquei desconfiado, já que os dois discos foram comprados ao mesmo tempo, não é tão surpreendente ver os dois próximos um do outro, então comprei outro.

Até o momento, duas unidades antigas falharam e duas novas no sistema. Após um mês, uma das novas unidades morreu. Foi quando começou a ficar desconfiado. Desde que o PC foi montado a partir de partes realmente antigas (acho que o AthlonXP), achei que talvez o controlador SATA da placa-mãe seja o culpado. É claro que você não pode trocar as peças facilmente em um PC antigo como este, então comprei um sistema inteiro, novo MB, nova CPU, nova RAM. Retornou a unidade que falhou, pois estava na garantia, e a substituiu.

Portanto, são 2 unidades com falha das antigas e 1 unidade com falha das novas. Sem problemas, por 1 mês. Depois que os erros começaram a aparecer novamente em / var / log / messages, e o mdadm estava relatando falhas na matriz de ataques. Comecei a arrancar meu cabelo. Tudo é novo no sistema, é o terceiro disco rígido novinho em folha, simplesmente não é possível que todos os novos discos que eu comprei estavam com defeito.

Vamos ver o que ainda é comum ... os cabos. Tudo bem, vamos substituir os cabos SATA. Pegue o disco rígido de volta, sorria para o cara no balcão e diga que eu sou realmente azarado. Ele substitui o disco rígido. Chego em casa, passa um mês e um dos discos rígidos falha novamente. Eu não estou brincando.

Dois dos novos discos rígidos falharam. Talvez seja um bug no sistema operacional. Vamos ver o que diz a ferramenta de teste do fabricante. Baixe a ferramenta de teste, grave-a em um CD, reinicie e deixe o teste do disco rígido da noite para o dia. O teste diz que a unidade está com defeito e eu devo fazer backup de tudo, se ainda puder. Não sei o que está acontecendo, mas não parece um problema de software, algo definitivamente está debochando nos discos rígidos.

Devo mencionar agora que todo o sistema está em uma caixa de sapatos. Como existe um monte de coisas "monte seu próprio gabinete ikea", pensei que não deveria haver nenhum problema em jogar a coisa em uma caixa e guardá-la em algum lugar. A caixa é bem ventilada, mas pensei que talvez as unidades estivessem superaquecendo. Não há outra resposta possível para isso. Então, peguei o disco rígido de volta e o substituí (pela 3ª vez) e comprei coolers de disco rígido.

E agora, ouvi o som da desgraça. clique clique whizzzzzzzzz . SSH na caixa:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

saída dmesg:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Recapitular:

  1. Sem possibilidade de superaquecimento
  2. 6 unidades falharam, 4 delas foram novas. Não tenho certeza agora que os dois originais foram defeituosos ou sofreram a mesma coisa que os novos.
  3. Não há nada comum no sistema, além do sistema operacional que é o Ubuntu Karmic agora (iniciado com o Jaunty). Novo MB, nova CPU, nova RAM, novos cabos SATA.
  4. Não, os pequenos orifícios no disco rígido não estão cobertos

Estou chorando. Sério. Não tenho o rosto para retornar à loja agora, não é possível que quatro unidades falhem em menos de quatro meses.

Algumas idéias que tenho pensado: É possível que eu estrague alguma coisa ao particionar e ressincronizar as unidades? Pode ser tão ruim que destrói fisicamente a unidade? (como a ferramenta fornecida pelo fornecedor diz que a unidade está danificada), particiono com o fdisk e uso o mesmo tamanho de bloco para as partições raid1 (verifico o tamanho exato dos blocos com o fdisk -lu)

É possível que o kernel do Linux ou mdadm, ou algo que não seja compatível com essa marca exata de discos rígidos, os debata?

É possível que seja a caixa de sapatos? Tente colocá-lo em outro lugar? Agora está sob uma prateleira, então a umidade também não é um problema. É possível que um gabinete normal de PC resolva meu problema (então vou me matar)? Eu vou tirar uma foto amanhã.

Eu sou simplesmente amaldiçoado?

Qualquer ajuda ou especulação é muito apreciada.

Edit : A régua de energia é protegida contra sobretensão.

Edit2 : Eu me mudei entre esses 4 meses, então a possibilidade da causa ser eletricidade "suja" nos dois lugares é muito baixa.

Edit3 : Eu verifiquei as tensões no BIOS (não podia emprestar um multímetro), e todas parecem corretas, a maior discrepância está nos 12V, porque está fornecendo 11.3. Eu deveria estar preocupado com isso?

Edit4 : Coloquei a PSU do meu PC de mesa no servidor. O BIOS relatou leituras de tensão muito mais precisas e também reconstruiu com êxito o array raid1, que levou cerca de 3-4 horas, então me sinto um pouco positivo agora. Obterá um novo PSU amanhã para testar com isso. Além disso, anexando a imagem sobre a caixa: (desconsidere a 3ª unidade)

imagens da caixa da desgraça

K. Norbert
fonte
7
por que você odeia tanto discos rígidos ?!
Jeff Atwood
3
É o contrário, eles me odeiam. Com paixão.
K.Kitbert
4
WishCow, se o teste do inversor ocorreu com uma fonte de alimentação inadequada, ele reflete apenas a operação do inversor com energia inadequada. Muitas vezes, o hardware que falha com a falta de energia fornecida funciona bem quando fornecido com a energia adequada. Francamente, a energia ruim constitui uma enorme fração de todos os problemas de hardware. Minha primeira ação quando suspeito que um componente de hardware defeituoso é tentar uma fonte de alimentação em bom estado ...
Richard T
3
Um filtro de linha apenas o protege contra sobretensões; não o protegerá contra subtensão. Conforme indicado por outras pessoas, um no-break (pelo menos vale a pena) irá "limpar" a energia suja porque funcionará com a bateria, em vez da energia direta da tomada.
Wayne Hartman
3
Olá WishCow, você aterra os componentes conectando-os todos com qualquer material condutor. Tradicionalmente, as pessoas usam um "estojo", mas você pode usar fios. As unidades de disco têm muitos furos roscados para parafusos - eles são perfeitos. A placa mãe pode ser um pouco mais complicada, pois foi projetada para ser aterrada pelos pinos de montagem de um gabinete. Eles fazem fixadores "destacados" com um parafuso em uma extremidade e roscas na outra. Você pode usar um destes, um parafuso e uma porca para prender a um dos orifícios de montagem da placa, mantendo o fio preso fora da própria placa. -cont-
Richard T

Respostas:

26

Sua fonte de alimentação também é antiga? Talvez esteja sobrecarregando / sobrecarregando a unidade que está causando a falha. Se você possui um multímetro, eu tentaria medir a tensão que está sendo executada em seus discos rígidos e observá-lo por um período de tempo. Outro culpado pode ser a eletricidade 'suja'; portanto, um no-break pode estar em ordem para 'limpar' a energia que entra na fonte de alimentação.

Wayne Hartman
fonte
O psu! Isso é tão antigo que sim, tentará obter um multímetro. Eu esqueci de mencionar, mas a régua de energia é protegida contra sobretensão, pelo menos é algum tipo especial. Obrigado pela sugestão.
K.Kitbert
Uma fonte de alimentação desonesta pode causar falha de componentes elétricos, como discos rígidos. O PSU foi a primeira coisa que pensei quando li sua postagem.
ConcernedOfTunbridgeWells
Indo marcar isso como aceito, até que os discos rígidos desistem novamente e analisem o aterramento dos componentes. Obrigado pela dica!
K.Fordbert
WishCow, espero que você já tenha percebido que essa não é a resposta correta. O problema é / foi que você não forneceu nenhum aterramento para os componentes.
Richard T
2
As probabilidades são de que o PSU mais a ausência de aterramento. A tensão de + 12V que você cita é muito baixa (na verdade, fora da especificação ATX) e sei por experiência própria como os HDDs são vulneráveis ​​à baixa tensão - eles produzem todos os tipos de erros estranhos para que você pense que seu MB, CPU ou memória está com falha. Para quem trabalha com PCs, vale a pena manter uma PSU em bom estado, apenas para verificar se um problema não está relacionado à energia.
raw_noob
14

Eu concordo com os outros: poder.

No entanto, com uma torção.

TODOS os componentes precisam ter um aterramento comum - o chassi é típico, mas no seu caso, quem sabe! Um "terreno à deriva" causaria isso, tenho certeza.

Você deseja que todos os componentes estejam ligados a um único aterramento E esse aterramento vinculado ao aterramento do aterramento da "rede elétrica" ​​de sua instalação. Isso é importante.

BTW, é possível que todo o seu hardware antigo ainda esteja bom! Descobri que o equipamento que foi servido com uma fonte de alimentação inadequada às vezes sobrevive bem quando é fornecida uma fonte adequada.

Eu espero que isso ajude.

RT

Richard T
fonte
Oh Deus, espero que o hardware antigo não esteja funcionando, já que eu o joguei fora. A ferramenta testadora disse que os HDDs estão quebrados. Tentará substituir a PSU.
K. Norbert
6
Eu tive problemas de terra ao executar um sistema "sem caixa" (todas as peças foram montadas em plexi e penduradas na parede.) A solução era passar um único fio terra do gabinete da fonte de alimentação até o gabinete de cada dispositivo e o aterramento da placa-mãe.
Chris Nava
5

Esta é uma postagem antiga e a pergunta original pode não ser mais relevante para a pessoa que faz a pergunta. No entanto, para referência futura às pessoas que estão montando um PC econômico, o Power não é um problema abrangente das unidades de disco. Na minha opinião profissional como engenheiro de implementação certificado pela EMC, é uma resposta enganosa culpar uma fonte de alimentação como a única parte responsável, uma vez que o computador está dentro de uma caixa de cartão.

Os discos rígidos vibram e, embora não exista uma posição específica, vertical ou horizontal, que aumente ou diminua a longevidade de um disco, há, no entanto, um fator de vibração criado por um disco rígido com eixos. As unidades exibidas aqui estão apenas em uma caixa de cartão. Este é um exemplo de engenharia orçamentária, e os acionamentos vibratórios estão de lado, aumentando ainda mais a ressonância no prato. Embora isso não seja uma resposta em si, discos rígidos montados incorretamente PODEM levar a uma falha no disco por causa de um prato vibratório que interrompe as cabeças de leitura e gravação de tocarem corretamente no prato.

Energia, fontes de alimentação baratas sempre são ruins para os computadores em geral; no entanto, é improvável que esse PSU tenha matado os discos rígidos e não outros componentes mais sensíveis da placa. Esse sistema está em uma caixa de papelão; portanto, a engenharia e a energia podem ter levado a uma falha mais catastrófica, mas não necessariamente a falha do disco. É possível, mas não comprovado neste caso.

Calor: o calor pode destruir um disco, no entanto, se não estava quente ao toque no momento da falha, o calor não é o culpado. Uma caixa de cartão não é um bom feito de engenharia para um PC ou servidor. É melhor você aparafusar suas peças em uma mesa de computador ou bancada, pelo menos elas serão aterradas.

RAID flexível e unidades baratas. Dada a caixa da placa de cartão e as peças antigas visualizadas na foto, você parece estar usando unidades de desktop padrão e um RAID flexível. As unidades de desktop podem ser colocadas em um controlador RAID, no entanto, com o aumento de E / S no disco, a chance de uma falha no disco aumenta. Os discos gravados neste caso não estão em um controlador RAID de hardware, mas estão sendo agrupados com um componente de software na placa-mãe. Isso não é ideal para discos rígidos. Isso aumenta a carga de trabalho em sua CPU, e os RAIDs softwares têm erros e matam os discos rígidos prematuramente. É provável que o RAID flexível tenha matado essas unidades acima de tudo.

Prevenção para futuras compilações: se você está lendo isso e vendo esse cenário de usuário antigo por meio da pergunta do google ou não:

- verifique se os discos estão montados corretamente em um chassi estável do disco rígido. Aperte os discos com pelo menos 4 parafusos no disco rígido ou use um trenó especial para o seu chassi.

-Assegure-se de que você tenha um fluxo de ar adequado no seu caso, os discos rígidos em um RAID tendem a ter mais E / S no disco e serão muito mais quentes do que se o volume físico fosse montado individualmente.

-Não use uma fonte de alimentação barata. O poder sujo é um assassino de peças caras de computador. Verifique também se sua fonte de alimentação fornece potência suficiente para lidar com a carga de trabalho desejada.

-Use uma placa controladora RAID! Nunca use o RAID flexível na sua placa-mãe. Os RAIDs flexíveis reduzem o desempenho do disco e aumentam a chance de falhas no disco mais do que a de uma placa controladora RAID.

O RAID geralmente aumenta a chance de falha do disco devido ao aumento de E / S em todos os seus volumes. Quanto maior o conjunto de discos unidos, maior a chance de falhas nas unidades. Se você RAID suas unidades, sempre use unidades de paridade e hot spares. Você pode perder seus dados se você RAID 0 2-3 discos. Se você possui 3 discos, use o RAID 5! 6 discos em RAID 5 (4 + 1) com hot spare são ideais se suas unidades estiverem cobertas por uma garantia. Se você não puder comprar mais discos ou se estiver fora da garantia, não use RAID.

As unidades de mesa não são unidades corporativas. As unidades de desktop são semelhantes às unidades Enterprise, mas não foram projetadas para lidar com grandes cargas de trabalho provocadas pelos controladores RAID. Se você comprar unidades de desktop da newegg e instalá-las como RAID na nossa placa-mãe, provavelmente verá pelo menos uma falha de unidade no primeiro ano. Quanto mais tempo você operar sua máquina em um RAID, mais I / O será gravada no disco e maior será a probabilidade do seu volume apresentar falhas. Combine drives baratos com RAID flexível da placa-mãe barata e você estará sofrendo.

É provável que esse usuário tenha experimentado todos esses fatores em seu servidor de caixas de sapatos. Energia barata, fluxo de ar ruim, drives baratos antigos não montados corretamente em um chassi e um RAID flexível da placa-mãe ... tudo isso aumenta as chances de uma falha no disco.

user2809007
fonte
4

Não consigo imaginar como você tem boa ventilação e resfriamento em uma caixa de sapatos? Você realmente deve gastar 50 ou 60 dólares por um gabinete de computador real?

As réguas de energia protegem apenas contra sobretensões; problemas comuns para equipamentos eletrônicos estão sob tensão (escurecimento) e sobretensão (pico). Também é comum o ruído EMI - tivemos um computador instável há algum tempo, que acabou sendo causado por uma esteira no mesmo circuito (eu pessoalmente verifiquei isso sem dúvida). Isso deixaria o modem offline e causaria o congelamento do sistema de tempos em tempos.

Além disso, a exposição contínua a ruídos e flutuações na fonte de alimentação pode danificar a fonte de alimentação, com o tempo, diminuindo a qualidade da energia fornecida aos componentes eletrônicos.

EDIT: Flutuações de energia elétrica podem ser isoladas em circuitos específicos. Mais importante, aparelhos de alto consumo, como microondas, geladeiras, esteiras, fogões e similares, podem ter um impacto significativo na qualidade da energia nesse circuito. E coisas como frigoríficos também têm um ciclo contínuo de operação on / off que, por sua vez, acende e acende a linha quando o motor entra e sai.

Além disso, se você estiver sendo atendido pela mesma empresa de energia, eles podem estar tendo problemas contínuos no fornecimento de tensão através da placa. A constante flutuação entre 105V e 125V terá um efeito negativo na eletrônica (como eu a entendo).

Lawrence Dol
fonte
A caixa não está coberta e os HDDs têm resfriadores. Boa ventilação pode não ser o termo correto aqui, mas definitivamente não está superaquecendo, verifiquei as temperaturas com smartmontools. Mas se o problema é com a eletricidade, os outros computadores da casa não causariam alguns sintomas? Também estou acrescentando à pergunta agora, que mudei para um novo local entre os quatro meses, por isso é improvável que haja problemas de eletricidade nos dois lugares.
K. Norbert
Após a mudança, você ainda pode ter o mesmo dispositivo no mesmo circuito que o seu computador; também seu PSU já pode ter sido atingido; portanto, o dano já pode ter sido causado. Acho que começaria com a obtenção de um no- break de filtragem de energia de baixo custo (cerca de US $ 100) e, em seguida, substituindo imediatamente o PSU (cerca de US $ 60) no computador.
Lawrence Dol
2

Parece realmente problemas de energia.

Se você tiver picos de energia, muitas réguas de energia baratas funcionarão apenas uma vez - e geralmente não há indicação de que não estejam mais protegendo.

Um bom no-break pode ajudar - alguns dos mais sofisticados realmente geram energia a partir das baterias e recarregam continuamente, fornecendo energia completamente isolada. A única desvantagem é que eles podem ser barulhentos.

chris
fonte
Não poderia ser um problema da tomada em que ele está "empalhando"? Eu tentaria primeiro experimentá-lo em algum lugar da casa, a salvo dos volt guzzlers e dos fios despidos.
Mck
Na verdade, peguei um no-break de costco da Costco por 100 dólares; a bateria não é grande, fornecendo apenas o suficiente para manter o modem da Internet e a caixa telefônica em funcionamento, mas eu a comprei principalmente para condicionar a fonte de alimentação do meu computador.
Lawrence Dol
A caixa está basicamente embaixo de uma prateleira, não está coberta e não fica perto de outros aparelhos elétricos. (além de um ps2 que nem está conectado no caixa eletrônico). Se for a eletricidade, também não causaria alguns problemas nos outros PCs?
K. Norbert
Eu poderia ser a energia que entra no edifício, pode ser outra coisa na casa - a proximidade de um aparelho com defeito não é necessária para afetar a energia. Pode ser que a fonte de alimentação é marginal, por isso é mais afetada pela interferência do que os outros computadores
chris
2

Na verdade, os fabricantes de HDD não imprimem as informações sobre as posições de trabalho em suas unidades, mas colocar os discos rígidos de lado é perfeitamente aceitável. Na última vez em que verifiquei essas informações, as unidades poderiam ser posicionadas deitadas ou de lado e com um ângulo de 5 ou 10 graus a partir dessas posições. Colocá-los de cabeça para baixo ou conectores voltados para cima ou para baixo não são posições legais. Os conectores voltados para cima ou para baixo costumavam ser a melhor posição para transporte há cerca de 15 anos. Esta é a informação mais recente que tenho sobre isso.

Estou tendo o mesmo tipo de erro em um novo disco rígido verde WD de 500 GB e os cabos SATA se parecem com os meus, e estou desconfiado deles.

O problema de aterramento não é propriamente uma coisa ruim; os componentes devem ser aterrados pela montagem correta em uma caixa metálica, mas isso não deve ser um problema se todos os conectores e cabos estiverem 100% ok.

É claro que uma fonte de alimentação ruim pode fazer muitas coisas ruins em todo o sistema, eu testaria com um novo PSU o mais rápido possível, de preferência com tudo montado em um chassi decente.

Boa sorte

Sérgio Gaspar
fonte
1

Concordo que um terreno ruim é o provável culpado. No entanto, considere o superaquecimento como uma possível causa. Se as unidades estiverem quentes ao toque, elas estarão muito quentes. Coloque um fã neles.

Chris Nava
fonte
Existem fãs nas unidades.
K. Norbert
1

Você pode verificar se eles superaqueceram observando os valores SMART. O aterramento do gabinete não é necessário, pois muitos portadores de troca a quente são de plástico e não aterrados. O aterramento através do cabo SATA deve ser suficiente. Tê-los firmemente montados PODE ajudar com problemas de vibração. A cabeça não toca no prato, mas sobe um pouco acima e o impacto no prato pode causar pequenas partículas a serem rompidas, o que pode resultar em batidas na cabeça.

cara de disco
fonte
0

Pode haver alto-falantes grandes, geladeiras, condicionadores de ar, motores elétricos ou outras fontes magnéticas ao lado da sua caixa de sapatos (completamente sem proteção)?

Console
fonte
Infelizmente não, nada.
K. Norbert
0

Concordo que motivos ruins podem ser a causa de sua tragédia de armazenamento. No entanto, eu também "consertaria" as unidades de disco rígido com mais força, porque as vibrações podem induzir danos permanentes.

pistache
fonte
0

Verifique os divisores de energia que dividem a energia dos ventiladores da unidade. Um conector intermitente pode fazer com que sua unidade perca energia em um momento crítico e a trava. Definitivamente, é necessário um argumento para um terreno sólido entre MB, PSU e HD.

Steve
fonte
-3

Eu acho que colocar os discos rígidos de lado pode ter contribuído para o fracasso em funcionar corretamente porque, na maioria dos casos, os discos rígidos são montados na horizontal nos gabinetes dos computadores.

monstro
fonte
2
Esta não é a causa. Os discos rígidos não se importam com a orientação deles.
Dan D.