Em um servidor com CPU dupla, é normal que uma CPU seja executada mais quente que a outra?

51

Eu tenho um servidor Opteron duplo executando o Linux com libvirt para hospedar várias VMs. As VMs funcionam bem e o servidor processa bem, mas noto que uma CPU sempre executa cerca de 69C (aceleradores a 70C) e a outra executa cerca de 15C.

Isso não parece normal para mim? Os dois não deveriam estar um pouco mais próximos na temperatura?

Não sei mais como dianose. Talvez não haja pasta térmica suficiente em uma das CPUs?

Edit: A placa-mãe é ASUS KGPE-D16 e resfriada por dois ventiladores Noctua NH-U9DO .

Note que eu acho que as temperaturas podem estar acima da temperatura ambiente, em vez de valores absolutos? Quando o servidor está ocioso, as temperaturas da CPU caem para 2C e 13C. Estou usando a configuração lmsensors daqui

samoz
fonte
11
Qual é a marca / modelo do servidor?
ewwhite
2
Como é a distribuição da carga da CPU? mpstat -P ALL 1no linux vai ajudar
Christopher Perrin
3
soa como sensor de temperatura quebrado
matcheek
14
15C é muito provável um censor quebrado ....
Reaces
Parece um sensor quebrado ou mal calibrado, se você pode reiniciar o servidor, dê uma olhada no BIOS, que deve exibir valores corretos.

Respostas:

106

O problema acabou sendo um dissipador de calor mal ajustado. Talvez o ajuste inadequado não seja a descrição correta. Acontece que você precisa colocar pasta térmica no dissipador de calor, não na tampa plástica que passa por cima do dissipador de calor.

insira a descrição da imagem aqui

Depois de remover a tampa de plástico, a CPU é agradável e legal, obrigado a todos!

samoz
fonte
51
+1 apenas porque é engraçado
HBruijn
9
Você quer dizer que alguém deixou a tampa de plástico no lugar e depois colou e colocou o dissipador de calor? Épico.
TomTom
4
Baaaaaahaaahaaahahahaa !!
Craig
8
Adoro como você pode ver os termos e condições, a garantia limitada e a política de devoluções em segundo plano. :)
Lightness Races com Monica
6
Se isso faz você se sentir menos estúpido (e não vai), fiz uma coisa semelhante com a minha nova cafeteira de escritório. O café estava frio demais para beber e eu estava arrumando-lo de volta para o retorno à loja antes de um disco de cartão de protecção deixado o elemento de aquecimento :)
Martin James
25

Na minha experiência, é normal que os componentes emparelhados funcionem em temperaturas diferentes, porque o fluxo de ar não é o mesmo em todos os lugares. Aqui está um gráfico da temperatura do HDD da minha caixa colo. As unidades são espelhadas, portanto, as cargas de trabalho nelas são quase idênticas.

munin gráfico de temperatura do disco rígido no ano passado

Como você pode ver, eles seguem um ao outro, mas não são os mesmos; eles também têm, em média, apenas 6C de diferença. Se seus sensores relatam temperatura absoluta ou superaquecimento, uma diferença de 55 ° C sob carga parece muito errada. Se você tem certeza de que os dados estão corretos, dada a diferença de repouso cai para 10 ° C, que é o tipo de diferença que eu vejo devido ao fluxo de ar, eu suspeitaria de um dissipador de calor mal ajustado.

Chapeleiro Louco
fonte
11
Usando o mpstat (de Christopher Perrin, obrigado!), Confirmei que a carga é distribuída de maneira bastante uniforme. As coisas estão ociosas agora em + 3C e + 20C. Vou tentar mexer no dissipador de calor para ver se está solto. Você acha que poderia ser um problema de pasta térmica?
samoz
Isso é muito possível (e mais ainda depois que você começa a mexer).
MadHatter
8

Não é. A menos que você tenha alguns problemas sérios com o fluxo de ar. Ou um dos refrigeradores é ruim. A temperatura variará - mas não tanto (70 vs. 15 graus Celsius).

Dado o quão baixo é de 15 graus, eu diria que (a) seu sensor está desligado (você realmente armazena o servidor em uma sala legal?).

Eu também assumiria que uma das CPUs simplesmente não funciona, por qualquer motivo.

Pequenas diferenças são normais. Alguns pequenos podem ser (fluxo de ar que vem à minha mente). mas aqui falamos de um ser frio.

TomTom
fonte
2

Isso pode ser um resfriamento ou carregamento irregular (dada a diferença de temperatura, sua situação provavelmente é um carregamento irregular). Você deve usar algo como prime95 para carregar todos os núcleos uniformemente e ver se os temps ainda variam. Caso contrário, você precisará equilibrar as VMs, verifique se seus aplicativos estão com vários threads e ocupados. Como fazer isso depende do seu software e da carga de trabalho individual, e está realmente além do escopo da pergunta. Lembre-se de que não há vantagem real em fazer isso se você não tiver carga suficiente para completar um único processador / núcleo; na verdade, sua VM pode evitar deliberadamente o uso de um segundo processador, para que possa entrar nos modos de economia de energia em vários ambientes. sistemas de CPU.

Se você reduziu a refrigeração. Uma pequena diferença de até 10 ° C pode ser muito pouco (ou muito!) Pasta térmica. Uma diferença maior indica um problema significativo ou diferença entre os resfriadores de CPU. Pode ser que alguém tenha bloqueado o fluxo de ar, um dissipador de calor esteja solto, etc.

JamesRyan
fonte
0

Eu teria que concordar com a temperatura defeituosa. sensor, como 15C é apenas 59F !!! A menos que o computador esteja em um datacenter extremamente frio, eu imaginaria que a temperatura do ar ambiente seria superior a 59F! Você tenta atribuir as VMs ao núcleo de baixa temperatura e ver se há alguma alteração; caso contrário, eu suspeitaria que o sensor estivesse com defeito.

Você também pode querer olhar para a saída de dmesg(mensagens de inicialização) e ver se há algo fora do comum lá.

J. Simons
fonte