Eu tenho um pequeno servidor Ubuntu rodando em casa, com 2 discos rígidos. Existem dois ataques de software (raid1) nos discos, gerenciados pelo mdadm, que considero irrelevantes, mas que são mencionados de qualquer maneira.
Ambos os discos rígidos são da Western Digital e são usados há cerca de 2 anos, quando um deles começou a fazer barulhos de cliques e morreu. Achei que talvez fosse natural depois de dois anos, então comprei um novo e ressincronizei os arrays de ataque. Após cerca de um mês, a outra unidade também morreu.
Não fiquei desconfiado, já que os dois discos foram comprados ao mesmo tempo, não é tão surpreendente ver os dois próximos um do outro, então comprei outro.
Até o momento, duas unidades antigas falharam e duas novas no sistema. Após um mês, uma das novas unidades morreu. Foi quando começou a ficar desconfiado. Desde que o PC foi montado a partir de partes realmente antigas (acho que o AthlonXP), achei que talvez o controlador SATA da placa-mãe seja o culpado. É claro que você não pode trocar as peças facilmente em um PC antigo como este, então comprei um sistema inteiro, novo MB, nova CPU, nova RAM. Retornou a unidade que falhou, pois estava na garantia, e a substituiu.
Portanto, são 2 unidades com falha das antigas e 1 unidade com falha das novas. Sem problemas, por 1 mês. Depois que os erros começaram a aparecer novamente em / var / log / messages, e o mdadm estava relatando falhas na matriz de ataques. Comecei a arrancar meu cabelo. Tudo é novo no sistema, é o terceiro disco rígido novinho em folha, simplesmente não é possível que todos os novos discos que eu comprei estavam com defeito.
Vamos ver o que ainda é comum ... os cabos. Tudo bem, vamos substituir os cabos SATA. Pegue o disco rígido de volta, sorria para o cara no balcão e diga que eu sou realmente azarado. Ele substitui o disco rígido. Chego em casa, passa um mês e um dos discos rígidos falha novamente. Eu não estou brincando.
Dois dos novos discos rígidos falharam. Talvez seja um bug no sistema operacional. Vamos ver o que diz a ferramenta de teste do fabricante. Baixe a ferramenta de teste, grave-a em um CD, reinicie e deixe o teste do disco rígido da noite para o dia. O teste diz que a unidade está com defeito e eu devo fazer backup de tudo, se ainda puder. Não sei o que está acontecendo, mas não parece um problema de software, algo definitivamente está debochando nos discos rígidos.
Devo mencionar agora que todo o sistema está em uma caixa de sapatos. Como existe um monte de coisas "monte seu próprio gabinete ikea", pensei que não deveria haver nenhum problema em jogar a coisa em uma caixa e guardá-la em algum lugar. A caixa é bem ventilada, mas pensei que talvez as unidades estivessem superaquecendo. Não há outra resposta possível para isso. Então, peguei o disco rígido de volta e o substituí (pela 3ª vez) e comprei coolers de disco rígido.
E agora, ouvi o som da desgraça. clique clique whizzzzzzzzz . SSH na caixa:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
saída dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Recapitular:
- Sem possibilidade de superaquecimento
- 6 unidades falharam, 4 delas foram novas. Não tenho certeza agora que os dois originais foram defeituosos ou sofreram a mesma coisa que os novos.
- Não há nada comum no sistema, além do sistema operacional que é o Ubuntu Karmic agora (iniciado com o Jaunty). Novo MB, nova CPU, nova RAM, novos cabos SATA.
- Não, os pequenos orifícios no disco rígido não estão cobertos
Estou chorando. Sério. Não tenho o rosto para retornar à loja agora, não é possível que quatro unidades falhem em menos de quatro meses.
Algumas idéias que tenho pensado: É possível que eu estrague alguma coisa ao particionar e ressincronizar as unidades? Pode ser tão ruim que destrói fisicamente a unidade? (como a ferramenta fornecida pelo fornecedor diz que a unidade está danificada), particiono com o fdisk e uso o mesmo tamanho de bloco para as partições raid1 (verifico o tamanho exato dos blocos com o fdisk -lu)
É possível que o kernel do Linux ou mdadm, ou algo que não seja compatível com essa marca exata de discos rígidos, os debata?
É possível que seja a caixa de sapatos? Tente colocá-lo em outro lugar? Agora está sob uma prateleira, então a umidade também não é um problema. É possível que um gabinete normal de PC resolva meu problema (então vou me matar)? Eu vou tirar uma foto amanhã.
Eu sou simplesmente amaldiçoado?
Qualquer ajuda ou especulação é muito apreciada.
Edit : A régua de energia é protegida contra sobretensão.
Edit2 : Eu me mudei entre esses 4 meses, então a possibilidade da causa ser eletricidade "suja" nos dois lugares é muito baixa.
Edit3 : Eu verifiquei as tensões no BIOS (não podia emprestar um multímetro), e todas parecem corretas, a maior discrepância está nos 12V, porque está fornecendo 11.3. Eu deveria estar preocupado com isso?
Edit4 : Coloquei a PSU do meu PC de mesa no servidor. O BIOS relatou leituras de tensão muito mais precisas e também reconstruiu com êxito o array raid1, que levou cerca de 3-4 horas, então me sinto um pouco positivo agora. Obterá um novo PSU amanhã para testar com isso. Além disso, anexando a imagem sobre a caixa: (desconsidere a 3ª unidade)
fonte
Respostas:
Sua fonte de alimentação também é antiga? Talvez esteja sobrecarregando / sobrecarregando a unidade que está causando a falha. Se você possui um multímetro, eu tentaria medir a tensão que está sendo executada em seus discos rígidos e observá-lo por um período de tempo. Outro culpado pode ser a eletricidade 'suja'; portanto, um no-break pode estar em ordem para 'limpar' a energia que entra na fonte de alimentação.
fonte
Eu concordo com os outros: poder.
No entanto, com uma torção.
TODOS os componentes precisam ter um aterramento comum - o chassi é típico, mas no seu caso, quem sabe! Um "terreno à deriva" causaria isso, tenho certeza.
Você deseja que todos os componentes estejam ligados a um único aterramento E esse aterramento vinculado ao aterramento do aterramento da "rede elétrica" de sua instalação. Isso é importante.
BTW, é possível que todo o seu hardware antigo ainda esteja bom! Descobri que o equipamento que foi servido com uma fonte de alimentação inadequada às vezes sobrevive bem quando é fornecida uma fonte adequada.
Eu espero que isso ajude.
RT
fonte
Esta é uma postagem antiga e a pergunta original pode não ser mais relevante para a pessoa que faz a pergunta. No entanto, para referência futura às pessoas que estão montando um PC econômico, o Power não é um problema abrangente das unidades de disco. Na minha opinião profissional como engenheiro de implementação certificado pela EMC, é uma resposta enganosa culpar uma fonte de alimentação como a única parte responsável, uma vez que o computador está dentro de uma caixa de cartão.
Os discos rígidos vibram e, embora não exista uma posição específica, vertical ou horizontal, que aumente ou diminua a longevidade de um disco, há, no entanto, um fator de vibração criado por um disco rígido com eixos. As unidades exibidas aqui estão apenas em uma caixa de cartão. Este é um exemplo de engenharia orçamentária, e os acionamentos vibratórios estão de lado, aumentando ainda mais a ressonância no prato. Embora isso não seja uma resposta em si, discos rígidos montados incorretamente PODEM levar a uma falha no disco por causa de um prato vibratório que interrompe as cabeças de leitura e gravação de tocarem corretamente no prato.
Energia, fontes de alimentação baratas sempre são ruins para os computadores em geral; no entanto, é improvável que esse PSU tenha matado os discos rígidos e não outros componentes mais sensíveis da placa. Esse sistema está em uma caixa de papelão; portanto, a engenharia e a energia podem ter levado a uma falha mais catastrófica, mas não necessariamente a falha do disco. É possível, mas não comprovado neste caso.
Calor: o calor pode destruir um disco, no entanto, se não estava quente ao toque no momento da falha, o calor não é o culpado. Uma caixa de cartão não é um bom feito de engenharia para um PC ou servidor. É melhor você aparafusar suas peças em uma mesa de computador ou bancada, pelo menos elas serão aterradas.
RAID flexível e unidades baratas. Dada a caixa da placa de cartão e as peças antigas visualizadas na foto, você parece estar usando unidades de desktop padrão e um RAID flexível. As unidades de desktop podem ser colocadas em um controlador RAID, no entanto, com o aumento de E / S no disco, a chance de uma falha no disco aumenta. Os discos gravados neste caso não estão em um controlador RAID de hardware, mas estão sendo agrupados com um componente de software na placa-mãe. Isso não é ideal para discos rígidos. Isso aumenta a carga de trabalho em sua CPU, e os RAIDs softwares têm erros e matam os discos rígidos prematuramente. É provável que o RAID flexível tenha matado essas unidades acima de tudo.
Prevenção para futuras compilações: se você está lendo isso e vendo esse cenário de usuário antigo por meio da pergunta do google ou não:
- verifique se os discos estão montados corretamente em um chassi estável do disco rígido. Aperte os discos com pelo menos 4 parafusos no disco rígido ou use um trenó especial para o seu chassi.
-Assegure-se de que você tenha um fluxo de ar adequado no seu caso, os discos rígidos em um RAID tendem a ter mais E / S no disco e serão muito mais quentes do que se o volume físico fosse montado individualmente.
-Não use uma fonte de alimentação barata. O poder sujo é um assassino de peças caras de computador. Verifique também se sua fonte de alimentação fornece potência suficiente para lidar com a carga de trabalho desejada.
-Use uma placa controladora RAID! Nunca use o RAID flexível na sua placa-mãe. Os RAIDs flexíveis reduzem o desempenho do disco e aumentam a chance de falhas no disco mais do que a de uma placa controladora RAID.
O RAID geralmente aumenta a chance de falha do disco devido ao aumento de E / S em todos os seus volumes. Quanto maior o conjunto de discos unidos, maior a chance de falhas nas unidades. Se você RAID suas unidades, sempre use unidades de paridade e hot spares. Você pode perder seus dados se você RAID 0 2-3 discos. Se você possui 3 discos, use o RAID 5! 6 discos em RAID 5 (4 + 1) com hot spare são ideais se suas unidades estiverem cobertas por uma garantia. Se você não puder comprar mais discos ou se estiver fora da garantia, não use RAID.
As unidades de mesa não são unidades corporativas. As unidades de desktop são semelhantes às unidades Enterprise, mas não foram projetadas para lidar com grandes cargas de trabalho provocadas pelos controladores RAID. Se você comprar unidades de desktop da newegg e instalá-las como RAID na nossa placa-mãe, provavelmente verá pelo menos uma falha de unidade no primeiro ano. Quanto mais tempo você operar sua máquina em um RAID, mais I / O será gravada no disco e maior será a probabilidade do seu volume apresentar falhas. Combine drives baratos com RAID flexível da placa-mãe barata e você estará sofrendo.
É provável que esse usuário tenha experimentado todos esses fatores em seu servidor de caixas de sapatos. Energia barata, fluxo de ar ruim, drives baratos antigos não montados corretamente em um chassi e um RAID flexível da placa-mãe ... tudo isso aumenta as chances de uma falha no disco.
fonte
Não consigo imaginar como você tem boa ventilação e resfriamento em uma caixa de sapatos? Você realmente deve gastar 50 ou 60 dólares por um gabinete de computador real?
As réguas de energia protegem apenas contra sobretensões; problemas comuns para equipamentos eletrônicos estão sob tensão (escurecimento) e sobretensão (pico). Também é comum o ruído EMI - tivemos um computador instável há algum tempo, que acabou sendo causado por uma esteira no mesmo circuito (eu pessoalmente verifiquei isso sem dúvida). Isso deixaria o modem offline e causaria o congelamento do sistema de tempos em tempos.
Além disso, a exposição contínua a ruídos e flutuações na fonte de alimentação pode danificar a fonte de alimentação, com o tempo, diminuindo a qualidade da energia fornecida aos componentes eletrônicos.
EDIT: Flutuações de energia elétrica podem ser isoladas em circuitos específicos. Mais importante, aparelhos de alto consumo, como microondas, geladeiras, esteiras, fogões e similares, podem ter um impacto significativo na qualidade da energia nesse circuito. E coisas como frigoríficos também têm um ciclo contínuo de operação on / off que, por sua vez, acende e acende a linha quando o motor entra e sai.
Além disso, se você estiver sendo atendido pela mesma empresa de energia, eles podem estar tendo problemas contínuos no fornecimento de tensão através da placa. A constante flutuação entre 105V e 125V terá um efeito negativo na eletrônica (como eu a entendo).
fonte
Parece realmente problemas de energia.
Se você tiver picos de energia, muitas réguas de energia baratas funcionarão apenas uma vez - e geralmente não há indicação de que não estejam mais protegendo.
Um bom no-break pode ajudar - alguns dos mais sofisticados realmente geram energia a partir das baterias e recarregam continuamente, fornecendo energia completamente isolada. A única desvantagem é que eles podem ser barulhentos.
fonte
Na verdade, os fabricantes de HDD não imprimem as informações sobre as posições de trabalho em suas unidades, mas colocar os discos rígidos de lado é perfeitamente aceitável. Na última vez em que verifiquei essas informações, as unidades poderiam ser posicionadas deitadas ou de lado e com um ângulo de 5 ou 10 graus a partir dessas posições. Colocá-los de cabeça para baixo ou conectores voltados para cima ou para baixo não são posições legais. Os conectores voltados para cima ou para baixo costumavam ser a melhor posição para transporte há cerca de 15 anos. Esta é a informação mais recente que tenho sobre isso.
Estou tendo o mesmo tipo de erro em um novo disco rígido verde WD de 500 GB e os cabos SATA se parecem com os meus, e estou desconfiado deles.
O problema de aterramento não é propriamente uma coisa ruim; os componentes devem ser aterrados pela montagem correta em uma caixa metálica, mas isso não deve ser um problema se todos os conectores e cabos estiverem 100% ok.
É claro que uma fonte de alimentação ruim pode fazer muitas coisas ruins em todo o sistema, eu testaria com um novo PSU o mais rápido possível, de preferência com tudo montado em um chassi decente.
Boa sorte
fonte
Concordo que um terreno ruim é o provável culpado. No entanto, considere o superaquecimento como uma possível causa. Se as unidades estiverem quentes ao toque, elas estarão muito quentes. Coloque um fã neles.
fonte
Você pode verificar se eles superaqueceram observando os valores SMART. O aterramento do gabinete não é necessário, pois muitos portadores de troca a quente são de plástico e não aterrados. O aterramento através do cabo SATA deve ser suficiente. Tê-los firmemente montados PODE ajudar com problemas de vibração. A cabeça não toca no prato, mas sobe um pouco acima e o impacto no prato pode causar pequenas partículas a serem rompidas, o que pode resultar em batidas na cabeça.
fonte
Você provavelmente deve atualizar sua instalação do Ubuntu. Há alguns meses (anos?) Atrás, foi encontrado um bug que causa maior desgaste do disco rígido nas instalações do Ubuntu.
Confira este link sobre este problema / bug: A alta frequência de ciclos de carga / descarga em alguns discos rígidos pode reduzir a vida útil
fonte
Pode haver alto-falantes grandes, geladeiras, condicionadores de ar, motores elétricos ou outras fontes magnéticas ao lado da sua caixa de sapatos (completamente sem proteção)?
fonte
Concordo que motivos ruins podem ser a causa de sua tragédia de armazenamento. No entanto, eu também "consertaria" as unidades de disco rígido com mais força, porque as vibrações podem induzir danos permanentes.
fonte
Verifique os divisores de energia que dividem a energia dos ventiladores da unidade. Um conector intermitente pode fazer com que sua unidade perca energia em um momento crítico e a trava. Definitivamente, é necessário um argumento para um terreno sólido entre MB, PSU e HD.
fonte
Eu acho que colocar os discos rígidos de lado pode ter contribuído para o fracasso em funcionar corretamente porque, na maioria dos casos, os discos rígidos são montados na horizontal nos gabinetes dos computadores.
fonte