Como diagnosticar redefinições repentinas ocasionais?

2

Eu tenho um sistema Windows XP e atualizei recentemente adicionando 2 sticks de 1 GB de RAM aos 2x0,5 GB já presentes. Desde então, cerca de uma vez por dia (o sistema é usado mais de 8 horas por dia), o sistema é reiniciado repentina e inesperadamente. Em algumas ocasiões, o sistema congelou completamente, respondendo apenas ao botão liga / desliga pressionado por vários segundos para forçar o desligamento.

Nada aparece no log de eventos do sistema que possa indicar uma causa possível - tudo parece sugerir negócios como de costume.

Parece memória defeituosa - mas o memtest86 + diz o contrário. Um teste completo, levando mais de uma hora, não encontrou problemas.

A próxima suspeita provável, então, é que eu bati em alguma coisa durante a instalação da RAM. O problema é que tudo o que consigo pensar em testar parece bom. Eu abri o caso e cutuquei algumas coisas, esperando obter um melhor contato nas conexões, etc., mas ainda não há sinal de que isso tenha feito diferença ou não.

Pensei em um golpe de tempo relacionado a malware, mas, novamente, pelo que sei, sou claro.

Tudo o que consigo adicionar à minha lista de verificação (principalmente de coisas que não consigo verificar facilmente) é ...

  • A fonte de alimentação é (1) apenas 350W, (2) não necessariamente da melhor qualidade e (3) alimentando um Prescott P4 640 3.2GHz. Isso pode estar sobrecarregado ou prestes a morrer? Como faço para verificar?

  • É possível que a CPU não esteja sendo resfriada corretamente? Eu nunca tive o ventilador ultrapassado o tickover normal, mesmo fazendo codificação de vídeo, e a única leitura sã de temperatura do SpeedFan é bastante estável em 36 graus Celsius, provavelmente não.

Alguma ideia? Existe um procedimento padrão para diagnosticar esse tipo de falha?

EDITAR

Finalmente resolvi esse problema e o PC agora está funcionando de maneira confiável (faz semanas).

O problema era o dissipador de calor - uma combinação de dois problemas, na verdade. É um processador LGA775 de soquete, o que significa o enorme dissipador de calor que trava na placa-mãe por quatro "pernas". Um dos bloqueios não estava bloqueado corretamente, provavelmente significando que eu o havia bloqueado ao instalar a RAM. Isso significa que o dissipador de calor provavelmente não estava fazendo um bom contato com o processador em toda a superfície - ou seja, um canto do processador poderia facilmente estar quente.

Segunda questão - a pasta térmica tinha secado e desintegrado, então era basicamente pó isolante termicamente.

Agora tenho um novo cooler completo - isso não era realmente necessário, mas o novo fica mais silencioso.

Steve314
fonte
XP provavelmente mostra tela azul da morte? Que tipo de erro escrito lá?
stim
1
Não erro. A máquina é redefinida instantaneamente sem aviso, iniciando imediatamente o procedimento de inicialização (cerca de 9 em 10) ou bloqueada, com a tela ainda exibida, mas completamente imóvel (até o mouse não se move). Se houvesse um erro escrito, haveria algo no log de eventos do sistema - eu já disse que não há nenhuma pista no log de eventos do sistema.
Steve314
Você já descobriu o que estava causando isso? Eu tenho um problema muito similar.
Jon

Respostas:

4

A partir dessa descrição, eu suspeitaria que o PSU esteja no limite de sua especificação ou esteja começando a falhar. Em ambos os casos, pode momentaneamente não fornecer a tensão ou corrente certa em uma das mais linhas da placa-mãe, o que pode causar vários erros aparentemente aleatórios.

Outra possibilidade relacionada à energia é que um dos muitos capacitores usados ​​para suavizar a energia da placa-mãe falhou (esse foi um problema muito comum há alguns anos, consulte http://en.wikipedia.org/wiki/Capacitor_plague para obter informações, incluindo o que procurar).

No padrão do XP de reiniciar automaticamente em certos erros (que de outra forma resultariam em um BSoD): isso pode ser alterado. Clique com o botão direito do mouse em "meu computador", selecione "propriedades", vá para a guia "avançado", clique no botão "configurações" na seção "inicialização e recuperação" e a caixa de diálogo exibida possui algumas opções sobre o que o kernel irá executar quando encontrar um erro que não pode resolver. Isso significa que você pode obter um erro útil na tela no lugar de uma reinicialização (embora se o problema estiver relacionado à energia, os erros podem não ser úteis, pois o problema pode afetar partes diferentes em momentos diferentes - se você receber um erro constantemente no mesmo módulo que pode ser uma pista útil).

David Spillett
fonte
+1 para obter bons conselhos, mas (1) verifica-se que "escrevi um evento no log do sistema" marcado, mas não estou recebendo nenhum desses eventos. Além disso, não estou vendo nenhum arquivo "Minidump". Vale a pena conferir a questão do capacitor, mas é mais provável que se aplique a outro sistema instalado no caixa eletrônico da minha adega. Então, estou me inclinando para a sua primeira explicação. Acho que vou remover a unidade de DVD ROM desnecessária. A compra de uma fonte de alimentação decente parece excessiva, dada a idade do sistema - melhor investir dinheiro em um novo PC. É uma pena que investi em uma atualização de RAM da qual talvez nunca me aproveite muito.
Steve314
Incapaz de decidir quem é a resposta a aceitar, simplesmente fui com os mais votados #
Steve314
4

"Parece memória defeituosa - mas o memtest86 + diz o contrário. Um teste completo, levando mais de uma hora, não encontrou problemas."

Uma hora no memtest não é, de forma alguma, um teste completo; as falhas geralmente aparecem após uma hora. Corra da noite para o dia para obter algo mais próximo de um teste completo. E mesmo assim, isso não significa que a memória esteja boa, mas esse teste não encontrou nenhuma falha nesse período.

De qualquer forma, você não precisa executar o memtest. O problema só aconteceu desde que você instalou a memória. Remova a nova memória e veja se o problema desaparece.

Se ele funcionar bem sem a nova memória, tente trocar a nova memória pela antiga e veja o que acontece. Se o problema persistir, volte a colocar a memória antiga e teste a nova memória com o Memtest (pelo menos 8 horas). Se alguém testar bom e outro ruim, tente usar apenas o bom. Se ambos testarem bem ... bem, você ainda não poderá usá-los.

Pode ser que a memória não esteja com defeito, mas a carga extra na fonte de alimentação quando você instala a memória extra está deixando-a doente. Improvável, mas suponho que não seja impossível.


fonte
Eu daria +1, mas estou no meu limite diário de votos. Você está correto - você precisa de várias passagens do memtest para garantir que a RAM seja boa.
Josh
O problema com a instalação / desinstalação da memória apenas como teste é a quantidade de abuso necessária para que a RAM seja recolocada nos soquetes. Mesmo remover a nova RAM causa isso, pois a RAM antiga precisa trocar de slot novamente. Estou sempre meio convencido de que vou quebrar alguma coisa, e toda repetição aumenta as chances de que eu vá, então tento evitá-la até que seja a única opção que resta. Eu farei a execução mais longa do memtest86 +.
Steve314
1

Como fonte de reinicializações aleatórias, verifico AQUECIMENTO, DISCO, ENERGIA e MEMÓRIA nessa ordem. No entanto, os congelamentos aleatórios raramente são (na minha experiência) relacionados ao poder, de modo que a memória sobe um. Como fonte de reinicializações, o disco não é comum, mas os erros de disco são, em geral, muito mais comuns que os erros de memória (novamente, na minha experiência), portanto, verifico isso primeiro.

Chris Nava
fonte
A maneira mais fácil de descartar / aquecer o HEAT é puxar a tampa da máquina e apontar um ventilador de mesa para ela.
Chris Nava
Se eu tivesse um erro no disco, já saberia. Na verdade, tive erros no disco e os consertei por causa de toda a reinicialização, mas nada causado pelo próprio disco falhar. Além disso, na minha experiência, uma falha na máquina devido a falhas no disco tende a demorar um pouco com a unidade emitindo muitos ruídos de clunking relacionados a novas tentativas - minhas redefinições estão aparentemente funcionando bem no logotipo de inicialização em uma fração de segundo. Embora, por acaso, eu ainda não tenha um desde que fiz a pergunta.
Steve314
Isso soa mais como uma perda momentânea de energia. Você tem uma fonte de alimentação sobressalente para trocar? Você está usando um no-break? Em caso afirmativo, qual a idade da bateria?
Chris Nava