Laptop rodando ~ 30 ° mais quente que o normal; CPU / Load é supostamente normal. O que poderia causar isso e como posso diagnosticá-lo?

10

Estou executando o Arch Linux mais recente no meu laptop ThinkPad t420 e estou tendo um problema intermitente de calor, onde minha temperatura aumentará dos ~ 45 ° C para ~ 75-90 ° C e permanecerá lá até eu reiniciar.

Já corri várias ferramentas de diagnóstico, incluindo o óbvio htope outros que googling sugeriu, inclusive powertop, iostatse, certamente, outros que eu não lembro. Até agora, não encontrei problemas óbvios e, aparentemente, nenhuma diferença nas leituras, se minha máquina está funcionando normalmente ou nesse estado quente.

Também matei a maioria dos processos suspeitos, um por um (bancos de dados e outros daemons), esperando encontrar o culpado oculto, sem sucesso.

Além dessas tentativas, não sei por onde começar a solução de problemas . Espero que alguém possa me indicar a direção certa para começar a procurar a questão mais profunda.

Para ser preciso, minha pergunta não é como resfriar minha máquina, mas o que poderia causar uma mudança de calor consistente de mais de 30 graus em um sistema em que (supostamente) a CPU e a carga são normais? E quais ferramentas / práticas eu poderia usar para diagnosticá-lo?

Algumas notas que podem ser úteis:

  • I pode resfriar o sistema (por exemplo, desengatando o controle do ventilador completamente), mas imediatamente se aquece novamente se deixado sozinho. Isso parece sugerir que a retenção de calor não é um problema, mas algo gera continuamente calor.
  • O uso e a carga da CPU são relatados htopnormalmente após entrar nesse estado quente. Isso inclui threads do kernel. De acordo com htop, o sistema está essencialmente ocioso (1-2% de uso da CPU no sistema, uma carga de 0,10).
  • Minha máquina usa gráficos integrados Intel HD e não possui outra placa gráfica . Uma placa nVidia era uma opção para esse modelo, conforme observado por @braiam; Eu não optei por isso.
  • @terdon trouxe as configurações do governador da CPU. Minhas CPUs estão definidas comopowersave
  • Meu processador específico é um Core i7-2620M de 2,7 GHz.

Edit : No momento em que escrevi essa pergunta, meu controle de fãs não estava funcionando corretamente e funcionava continuamente em um intervalo médio de RPM (3900 RPMs), mesmo em temperaturas altas. Por sugestão de @Alex e @JustDanyul, isso foi corrigido. O problema subjacente, no entanto, ainda permanece.

numbers1311407
fonte
1
Como slm implica, se a CPU estiver ociosa, mas a temperatura do núcleo estiver muito alta, a única explicação possível é que o excesso de calor não foi dissipado após algum evento - a única coisa que pode produzir calor significativo é a CPU. Pense em acender um queimador de fogão para ferver um pouco de água, colocar uma tampa e abaixar o queimador: a água permanece fervendo perpetuamente porque o calor não pode se dissipar tão rápido quanto o queimador substitui- o enquanto a tampa está ligado . Desmonte-o e limpe-o se estiver muito ruim, apenas soprar ar provavelmente não ajudará muito neste momento.
precisa
Definitivamente vou desmontá-lo e limpá-lo, pois suspeito que estou tendo alguns problemas de fluxo de ar, mas como a CPU manterá uma temperatura alta constante indefinidamente após o evento que causa a mudança extrema de temperatura. Mesmo se você deixar a tampa na panela, a temperatura da água diminuirá em algum momento. Minha temperatura atinge um número e simplesmente permanece lá, consistentemente nesse número, para sempre até que eu reinicie. Não há uma construção gradual de calor que sugira que ele esteja tendo problemas de dissipação. Fui correndo com uma carga de trabalho completa a manhã toda e estou sentado a 41 graus.
numbers1311407
Em outras palavras, minha temperatura se regulará normalmente sob o estresse esperado. Se estou fazendo uma compilação difícil, pode esquentar até 60, 70 graus, mas quando terminar, esfriará.
usar o seguinte código
Além do ventilador, você pode reaplicar a pasta térmica. A pasta térmica mais barata será dissipada com o tempo.
BlueRaja - Danny Pflughoeft
1
Talvez essa seja uma pergunta estúpida, mas você, por acaso, desativou a ACPI? Eu tive problemas semelhantes há algum tempo com um PC antigo, que não inicializava com essa opção ativada. Após desativá-lo, ele finalmente inicializou, mas também estava superaquecendo.
Alko

Respostas:

6

O fã

O meu também faz isso, executando o Fedora 14. Tente pegar uma lata de ar comprimido e soprar as aberturas de ventilação na parte traseira e lateral do gabinete.

Periodicamente, você também deseja remover o teclado e soprar ar comprimido diretamente nas pás do ventilador. Eles ficam cobertos de poeira e começam a afetar sua eficácia pesando-a.

A melhor coisa sobre os Thinkpads são os manuais de serviço! Eles mostram como derrubar o laptop e montá-lo novamente.

Mau processo

A outra coisa que notei é que ocasionalmente terei um processo que deu errado e consumirei 100% de um dos núcleos. Mate esse processo normalmente traz a temperatura de volta ao normal.

Você pode usar htopou toppara ver qual é esse processo e matá-lo a partir deles ou de um terminal usando-o PID.

o quê mais?

Veja minha resposta a estas perguntas e respostas sobre questões de questões e respostas para obter mais dicas sobre como obter leituras de temperatura para os vários componentes do seu laptop. As perguntas e respostas são intituladas: Como obter a temperatura central dos núcleos haswell i7 no i3status .

slm
fonte
Definitivamente, é algo que devo fazer, mas o mais estranho para mim é que às vezes só entra no estado quente e persiste até a reinicialização, o que imediatamente corrige o problema. Parece que algo deve estar acontecendo, o que está provocando a mudança persistente no calor. Corri htop sem sucesso. O uso da CPU é normal.
usar o seguinte código
Talvez alguns acordes sinalizem com o kernel?
Braiam
1
@ SLM obrigado, eu não tentei isso. Vou fazê-lo da próxima vez que começar a ficar quente e relatar os resultados.
usar o seguinte código
1
@ numbers1311407: O motivo pelo qual a reinicialização resolve o problema rapidamente é que isso desliga a CPU por alguns segundos, permitindo que a temperatura caia abaixo do ponto de corte. A CPU está sempre mais quente que o ambiente, seja qual for o "ambiente".
precisa saber é o seguinte
1
Observe que no topcomando você pode pressionar "1" para ver a carga de núcleos individuais.
Christian Stewart
3

Este é um comentário mais longo, mas você deve dar uma olhada no thinkwiki.org, que é o recurso para Linux no ThinkPads. Quanto à temperatura, tive problemas semelhantes com o meu t4500 e resolvi-o jogando com

  1. O governador da CPU que controla o dimensionamento da frequência da CPU. Suas escolhas são:

    • O desempenho mantém a CPU na frequência mais alta possível
    • O Powersave mantém a CPU na frequência mais baixa possível
    • O espaço do usuário exporta as informações de frequência disponíveis para o nível do usuário (através do sistema de arquivos / sys) e permite o controle do espaço do usuário da frequência da CPU
    • Ondemand dimensiona as frequências da CPU de acordo com o uso da CPU (assim como os daemons de dimensionamento de frequência do espaço do usuário, mas no kernel)
    • Conservador age como o ondemand, mas aumenta a frequência passo a passo

    Com ondemand , sua CPU só será executada na velocidade mais alta quando necessário. Idealmente, isso será completamente transparente para você, sua máquina simplesmente funcionará o mais rápido possível para as tarefas atuais. Para ativá-lo, faça

    sudo echo ondemand > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
    
  2. Controle do ventilador. Existe um utilitário muito bom chamado " Simple ThinkPad Fan Control ", que permite ajustar as temperaturas do gatilho que alteram a velocidade do ventilador. Também dê uma olhada nas informações aqui .

terdon
fonte
Obrigado, isso é muito útil. Eu já tropecei nesse wiki antes, mas nunca tomei nota do que era exatamente.
usar o seguinte código
Apenas a nota, todos os meus CPUs estão sendo executados empowersave
numbers1311407
1

Eu acho que há um problema sobre o que você considera "quente". Para o Thinkpad t420 (de acordo com os fóruns ) é de cerca de 80 a 85 ° C e vamos esquecer a placa nVidia que também pode causar um aumento de temperatura (na verdade, a configuração do Optimus pode não funcionar bem, forçando sua CPU a fazer o trabalho da GPU). Isso digamos, o seu máximo CPU temperatura tolerada é 100C (se ele fica lá o sistema será desligado), enquanto o ambiente é de cerca de 10,0 ° C a 35,0 ° C . Dito isto, se o seu laptop estiver dentro do limite, tudo está ok (exceto a duração da vida útil da bateria e do laptop).

Agora você queria apontar possíveis suspeitos. Nesse aspecto, eu diria que a má implementação da nVidia com Linux pode gerar trabalho em sua CPU que não será exibido no htop (ou em qualquer outro lugar) devido ao seu infame sistema On Demand On-Demand Optimus, que parece se adequar à sua situação atual ( funciona bem até um momento, apenas começa a aquecer sem controle). Você deve atualizar sua instalação até ter o Bumblebee totalmente configurado. Você pode usar o bbswitchpara desabilitar o cartão nVidia à vontade e ver como ele funciona.

Para instalar o Bumblebee for Arch, você pode encontrar o pacote no repositório. Se você ainda não o instalou.

Braiam
fonte
Não optei pelo cartão nVidia nesta máquina. Desculpe, deveria ter sido mais claro sobre isso na questão. E embora o 80-85 não esteja muito quente , ainda está mais quente do que os 40 anos, que é o que meu computador normalmente executa com uma carga de trabalho leve típica. Meu problema está tentando determinar em que condição fantasma "entra em ação" e faz com que meus 45 consistentes sejam 80-85 consistentes.
numbers1311407
1

sensores mostra meu ventilador vibrando a ~ 3900 RPM

Mesmo com temperatura como ~ 75-90 ° C?

quando aumentar o ventilador manualmente, esfria a máquina temporariamente

Então, um problema é apenas que a velocidade do ventilador não está funcionando automaticamente?

Esqueça o automóvel, você pode ler a temperatura corretamente e pode controlar a velocidade do ventilador manualmente, certo? Nesse caso, tudo o que você precisa fazer é encontrar um script de controle de ventilador funcionando ou implementar o seu próprio (pesquise a temperatura e defina a velocidade de acordo com a tabela temp[i]=speed[i], quando você definir uma velocidade mais alta, mantenha-a por um tempo, mesmo que a temperatura caia , quando precisar diminuir a velocidade, faça-o lentamente e passo a passo).

Sobre a pesquisa, o melhor seria ter um daemon de monitor de temperatura que desencadeie eventos de mudança térmica e o script de controle do ventilador ouvindo / aguardando esses eventos, embora eu (talvez errado), uma vez que era, acpidmas atualmente não sei.

Nos dois casos (seu próprio / script existente), enquanto você não estiver confiante com a solução, observe sempre a temperatura e as RPMs, o ventilador não deve parar.

Resolva esse autoproblema primeiro e, se o superaquecimento persistir, você pode se concentrar na causa.

editar

Convém tentar uma ferramenta como lttngcoletar estatísticas de todo o sistema ao longo do tempo, mas pode não ser fácil de configurar e pode ser caro em termos de armazenamento, se você precisar coletar por um longo período.

Alex
fonte
Você está certo de que meu controle de fãs está funcionando mal, se é que o faz. Vou tentar fazê-lo responder adequadamente, mas corrigi-lo não resolverá a causa subjacente. Eu poderia deixar a coisa solta no máximo 6400ish rpms o dia todo e esfriar um pouco, mas é a causa que estou tentando resolver.
precisa saber é o seguinte
1

Como aumentar o ventilador manualmente resolve o problema, este seria um excelente local para iniciar a solução de problemas, pois isso sugere que o controle automático do ventilador não está funcionando.

Agora, você roda o arch linux, que é uma distro brilhante (sim, eu também corro) com um ótimo wiki. Então, eu tenho que perguntar, você RTFM? ; p

https://wiki.archlinux.org/index.php/Lenovo_ThinkPad_T420#Fans

Tanto quanto eu posso ver, você precisa:

  1. ative o módulo do kernel thinkpad_acpi
  2. instalar e configurar o aplicativo thinkfan a partir do AUR
  3. ativar o serviço do sistema thinkfan

Tudo isso foi feito?

ATUALIZAÇÃO Fico feliz em saber que seu fã agora está funcionando corretamente, em vez de apenas girar em um ambiente feliz. (Acho que isso resolveu o problema da sua máquina funcionando a temperaturas acima de 80 graus?)

No que diz respeito a responder qual é a causa subjacente de uma mudança de temperatura de 30 graus, estou tentada a perguntar: não poderia ser por causa do fato de que seu ventilador não estava funcionando corretamente?

Vamos postular que,

  • o processador não está trabalhando mais do que o normal
  • as flutuações de temperatura agora são substituídas por flutuações da velocidade do ventilador

Não seria seguro supor que talvez não houvesse nenhum problema, e que o problema era simplesmente o fato de o seu fã estar rodando em um nível em que ele mal conseguia lidar? E pequenas mudanças na temperatura ambiente, etc, colocá-lo acima do limite de suas capacidades?

Por exemplo, eu tinha um laptop Acer e, em dias quentes, o ventilador estava "constantemente" girando para cima e para baixo. Aposto que se meu fã não fosse capaz de se ajustar, eu também teria visto grandes variações de temperatura :)

JustDanyul
fonte
Acabei de instalar o thinkfan. Obrigado pela atenção. Sim, o wiki detalhado do arco é uma grande vantagem da distribuição. Já estive lá milhares de vezes, mas nunca tropecei ou pensei em procurar uma página dedicada ao meu modelo exato e nunca tinha visto o thinkfan ser mencionado. Bom pequeno roteiro. Dito isto, isso não resolve o meu problema real: como diagnosticar a causa da minha temperatura excepcionalmente alta? Mesmo que eu desligasse o controle do ventilador e soltasse a coisa no RPM máximo, isso só colocaria uma banda na questão real do calor misterioso.
numbers1311407
Não, o problema ainda existe inalterado. Estou sentado aqui agora, a 42 graus. Quando minha condição de calor ocorrer, estarei executando os mesmos processos, o ambiente será equivalente, nada ostensivamente mudará, mas minha temperatura aumentará de 42 para 75 ou mais. Eu posso esfriar: coloque-o em um cooler para laptop, desative o controle do ventilador, permitindo girar a 6500 RPM etc. etc. O ventilador na velocidade máxima é apenas um pouco mais rápido do que o normal. Corrigir foi uma coisa boa, mas não uma solução para o problema subjacente.
precisa saber é o seguinte