O congelamento rápido impede que o botão de reinicialização física funcione

6

Eu tenho um PC reaproveitado rodando como um servidor. Foi montado no início de 2014 e contém um processador Intel Core i7-4770 em uma Gigabyte Z87-HD3. Funcionou de forma bastante confiável até o início de 2017, quando começou a congelar intermitentemente (a cada poucas semanas ou meses). Nenhum registro do Kernel, nem mesmo os dados de falha do repositório de páginas ou o netconsole produziram algo significativo. A tela física está em branco, a rede não responde, as métricas com granularidade de 10s não mostram correlação para carregar na CPU, na RAM ou no disco. Todos os LEDs e unidades ainda estão funcionando, mas obviamente não há mais IO. A RAM foi testada e é verificada boa, sem espionamentos espúrios ou qualquer coisa que indique um problema de hardware intermitente. Apenas dura congelando.

Agora, para a parte muito interessante: Uma vez que o sistema entra nesse estado, o botão de reset físico pára de funcionar completamente. Depois que eu pressiono, nada acontece. Definitivamente funciona fisicamente, pois funciona 100% quando o sistema não está nesse estado. Eu verifiquei voltagens da PSU com um multímetro e eles estão bem. Eu ainda posso redefinir o servidor pressionando o botão de energia por 5s e ele inicializa bem depois disso.

Então, eu estou praticamente perdendo o que acontece aqui e qual peça de hardware é a culpa. Eu tenho analisadores lógicos e eu poderia ter acesso a escopos USB, mas nada que amostras acima de 100MSPS, por isso não posso sondar os ônibus reais. Eu ficaria muito grato por qualquer insight do que poderia estar acontecendo.

Lorenz
fonte
1
Eu posso apreciar seu plano de fundo eletrônico e desejo realmente cavar e solucionar problemas. Mas, não é assim que funciona mais com computadores. A resolução de problemas é feita através de um processo de eliminação. E com um problema intermitente, pode ser entediante e levar muito tempo. No entanto, o procedimento básico é testar e trocar componentes até você descobrir o que é. Neste caso, provavelmente é a sua fonte de alimentação ou placa-mãe - porque não responde ao botão de reset. Eu diria que provavelmente a placa-mãe. Mas, você precisará de peças extras para testar com certeza.
Appleoddity
Expansão térmica ou camadas da placa-mãe se separando, causando a separação física de uma das linhas de energia da placa-mãe? Não é o CPU; o botão de reset continuaria funcionando se fosse a CPU ou a memória. A falta de disco IO blinkenlights (confirmar?) Diz que ele é realmente congelado, e não o congelamento da GPU. Eu não tenho certeza de como mergulhar mais fundo sem conhecimento profundo da placa-mãe, infelizmente.
Christopher Hostage
Rede não responsiva: então não há respostas de ping, tentativas de conexão ssh e nenhuma nova conexão remota. O roteador viu a interface de rede do computador conectada? Isso nunca aconteceu com uma conexão remota já em andamento (foi congelada também?). Apenas um palpite: e quanto à temperatura, é possível que a temperatura desencadeie essa reação?
Hastur
Obrigado por seus comentários. Vou rapidamente abordar todos eles. Appleoddity: Eu sei, os congelamentos são muito intermitentes, o que torna este processo muito lento (e tedioso, há uma tonelada de cartões e discos PCIe). Mas sim, a placa-mãe é a mais provável. Christopher Hostage: Sim, nenhum disco IO ilumina ou qualquer outro IO para esse assunto. Hastur: A máquina funciona como um roteador (múltiplas interfaces IB + Ethernet). Todas as conexões em andamento morrem, mas a rede em si (camada PHY) não diminui, apenas o processamento de pacotes.
Lorenz

Respostas:

1

Então, depois de muita troca estratégica (mainboard, PSUs, CPU) eu tenho uma confirmação diferencial (o sistema de teste experimenta o problema, o original não funciona mais) na CPU sendo ruim. Resultado muito inesperado, uma vez que nenhum MCE foi demitido, geralmente você obtém MCEs antes de travamentos difíceis.

Uma vez que este fórum infelizmente não tem um conector Trace Hub / JTAG e a depuração USB3 integrada não está disponível na plataforma Haswell, não tenho ideia do que realmente está errado. É bastante certo que o chip acaba em um estado em que ele não consegue ser liberado da reinicialização (falha de autoteste, trilho de alimentação não está funcionando, ...). Poderia estar relacionado com a introdução de FIVR (regulador de tensão totalmente integrado) em Haswell, mas isso é apenas especulação.

Se você acertar este problema, ele não precisa ser a CPU, poderia ser uma placa-mãe com falha ou PSU (ou algo totalmente diferente). Eu só queria postar isso para ser completo e para as pessoas verem que também pode ser uma falha na CPU (embora ainda seja bastante improvável).

Lorenz
fonte
Teve uma falha na CPU uma vez na última década; estava lançando travamentos intermitentes / aleatórios e avisos de correção de ECC na inicialização. Tempo desperdiçado com foco na memória. Finalmente tive um palpite, troquei CPUs (dual socket), peguei erros para mover canal com CPU, e pude consertar o problema. Que dor embora!
Damon
-1

Eu já vi esse comportamento duas vezes antes, tanto em laptops x86. Quando isso acontece, a tela congela, os LEDs permanecem acesos, mas nenhum botão funciona. O único botão que funciona é o botão liga / desliga, mas quando pressionado por 5 segundos.

Laptops geralmente não têm botão de reset, então não posso ter certeza do seu problema, mas a evidência aponta para uma falha de hardware. O que vi foram juntas de solda na placa ficando rachadas, seja por defeito, tempo ou tensão mecânica (ciclos de resfriamento a quente). Cada articulação ruim injetará ruído elétrico. Obtenha o suficiente ou nos lugares certos e os circuitos digitais travarão, fazendo com que toda a placa congele. Isso não está no nível do sistema operacional ou BIOS, é mais baixo, no hardware. Nesse estado, apenas o recurso de hold-down do botão liga / desliga funcionará, porque isso usa um circuito analógico que não bloqueia.

A solução é colocar a placa em um ciclo de reaquecimento (dentro de uma máquina) que derreta rapidamente a solda, fazendo com que as rachaduras sejam soldadas novamente e desapareçam.

Eu encontrei uma empresa especializada neste tipo de reparo.

No eBay, navegue até Serviços especializados - & gt; Restauração & amp; Serviços de reparo - & gt; Restauração de Computador & amp; Serviços de reparo. O vendedor é "NYClaptoptech". Eu procurei pela marca / modelo e eles tinham um "item à venda" correspondente. Eu comprei este serviço da mesma forma que compraria um PC, usei o mesmo processo de checkout. (Parecia estranho configurar uma chamada de serviço usando o método de compra.) Enviei a placa-mãe e recuperei em duas semanas. Custo: US $ 120. Seu serviço é genérico e você pode simplesmente chamá-los para organizar um reparo.

user855923
fonte