Pode-se provar que a execução de uma GPU em altas temperaturas faz mal à placa?

11

Se você executar a placa gráfica continuamente entre 80 ° C e 90 ° C (176 ° F e 194 ° F), isso é realmente ruim para a placa gráfica? Ou seja, reduz a vida útil do cartão? Isso pode ser provado? Ou são apenas suposições?

Entendo que o desligamento de segurança das GPUs é normalmente 90 ° C (194 ° F).

Daniel
fonte
O 'desligamento de segurança' depende muito de onde a temperatura é medida e com qual processo e temperatura máxima o circuito foi projetado. Lembro-me de um tempo atrás que uma certa geração de CPUs intel tinha uma temperatura nominal máxima de 110 ° C, o que deixou alguns entusiastas de hardware preocupados porque pensavam que os chips se autodestruiriam. Spoiler: Eles não fizeram.
Joren Vaes
1
Penso que esta questão está fortemente relacionada com esta outra questão ic-product-life-function-of-junction-temperature . O ponto principal dessa pergunta é que a cada 15 ° C acima da temperatura ambiente, reduz pela metade a expectativa de vida de um CI. Portanto executar uma placa gráfica a 90 ° C em comparação a 80 ° C irá reduzir sua vida útil por ~ 37% (por isso, se a expectativa de vida é de 8 anos, com 80 ° C, é ~ 5 anos com 90 ° C em vez)
Harry Svensson
1
A lei de Arhennius está mais próxima do aumento 50% menor do MTBF / 10'C, mas há outros fatores a serem considerados para os dielétricos em que eles começam com um MTBF muito menor, como 1000 h @ 85h ou 105h, então eu suspeito que eles usem tampas com classificação de 105'C ou Melhor.
Tony Stewart Sunnyskyguy EE75 /

Respostas:

21

Vamos estudar os mecanismos de falha e ver como eles são afetados pelo calor. É muito importante lembrar que, apenas porque um mecanismo de falha acontece mais rapidamente com a temperatura, a GPU não necessariamente falha mais rapidamente! Se um subcomponente que dura 100 anos em temperatura ambiente dura apenas 20 anos se estiver quente, mas outro subcomponente dura apenas 1 ano para começar (mas não é afetado pelo calor), a vida útil do produto dificilmente mudará com temperatura.

Ignorarei a questão do ciclismo mencionada por Simeon, pois essa não é minha especialidade.

No nível da placa, posso pensar em um componente principal que irá "quebrar" com a cabeça: capacitores eletrolíticos. Esses capacitores secam e é bem sabido que eles secam mais rapidamente quando o calor é aplicado. (os capacitores de tântalo também tendem a ter uma vida útil mais curta, mas não sei como isso muda com o calor).

Mas e o silício?

Aqui, como eu o entendo, existem algumas coisas que podem causar falhas. Um dos principais aqui é a eletromigração. Em um circuito, os elétrons que passam por pedaços de metal se movem fisicamente em torno dos átomos. Isso pode ficar tão ruim que causará lacunas nos condutores, o que pode levar a falhas.

Esta imagem fornece uma boa ilustração (de Tatiana Kozlova, Henny W. Zandbergen; observação TEM in situ da eletromigração em nanobridges de Ni):

insira a descrição da imagem aqui

Esse processo aumenta exponencialmente com a temperatura e, portanto, o chip durará menos tempo se a temperatura for mais alta e a eletromigração for a principal causa de falha.

Outro mecanismo é a decomposição de óxidos, onde, dentro do circuito, os transistores sofrerão um golpe de portão. Isso também depende da temperatura. No entanto, a tensão tem um impacto muito maior aqui.

Também há troca de TV, devido à deriva de dopantes ou devido à injeção de portador quente. O desvio de dopante aumenta com a temperatura (mas é improvável que seja um problema, especialmente com circuitos digitais, pois esse é um processo muito lento). Não tenho certeza sobre a dependência da temperatura da injeção de portador quente, mas acho que novamente a tensão é um fator muito mais importante aqui.

Mas há uma pergunta importante: quanto isso diminui a vida útil? Sabendo disso, você deve garantir que sua placa gráfica permaneça fria o tempo todo? Meu palpite é não, a menos que tenha sido cometido um erro no estágio de design. Os circuitos são projetados com essas piores situações em mente e são feitos para sobreviverem se forem levados ao limite pela vida útil nominal do fabricante. No caso de pessoas com overclock de circuitos: o aumento da tensão que eles costumam usar para manter o circuito estável (pois pode acelerar um pouco os circuitos) causará muito mais danos do que a própria temperatura. Além disso, esse aumento de tensão levará a um aumento de corrente, o que acelerará significativamente os problemas de eletromigração.

Joren Vaes
fonte
2
Essas são algumas imagens fantásticas, sempre me perguntei como seria a eletromigração.
Cursorkeys
9

Sim, está provado que o calor degrada os componentes elétricos. Os metais se expandem quando aquecem, a solda (usada para conexões de circuitos elétricos) é uma liga de metal e, portanto, se expande quando aquecida. O aquecimento e o resfriamento constantes farão com que as juntas se expandam e se contraiam constantemente, o que pode levar a rachaduras e eventualmente à falha da junta.

                                                      Gráfico da taxa de falhas versus temperatura

O gráfico acima mostra como o Arrhenius'Law fornece uma correlação entre um aumento no calor e uma falha no semicondutor. Este artigo detalha os efeitos do calor nos componentes eletrônicos. Ele lida mais com as coisas no nível do elétron, que está um pouco fora do meu escopo de conhecimento

Simeon R
fonte
1
Eu acredito que o ciclismo é ruim, devido a como você diz expansão e contração, mas há um problema com o funcionamento de uma carga elevada, e, assim, uma alta temperatura todo o tempo?
Colin
Sou designer de IC, por isso tenho pouco conhecimento sobre os modos de falha no nível da placa, mas durante todo o meu tempo reparando coisas (como hobby) ainda não encontrei uma falha devido ao ciclo de expansão, por isso tenho que questionar o quão significativo é comparado a outros mecanismos.
Joren Vaes
1
@ Cololin não existe algo como "carga alta o tempo todo"; a menos que você esteja apenas explorando bitcoin em sua GPU, haverá segundos em que haverá mais carga do que outros. Com o resfriamento precisando ser bastante potente nas GPUs, isso já leva aos problemas mencionados. Veja: XBox anel da morte.
Marcus Müller
@ MarcusMüller existe absolutamente. E não importa que a carga não seja absolutamente constante. Para pedalar, a temperatura delta é importante. Uma carta que executa 99% do tempo a uma carga de 95 a 100% (ou seja, computação) dentro das temperaturas projetadas seria muito menos suscetível ao dano hipotético de ciclismo do que a mesma carta oscilando entre 0% e 100% descontroladamente 50% dos o if (ou seja, jogos).
Dan M.
6

A relação entre o aumento da temperatura de junção de um semicondutor e a redução de seu MTBF (tempo médio entre falhas) é bem entendida.

Esta nota técnica da Micron fala sobre isso

Na prática, a taxa de falha aumentará exponencialmente quando a temperatura da junção se aproximar e exceder ~ 125 ° C; portanto, se você estiver operando bem abaixo dessa temperatura, pequenos incrementos podem não ser tão críticos.

joribama
fonte