Por que exatamente os chips começam a funcionar mal quando superaquecem?

26

Quando um chip superaquece, ele pode começar a funcionar mal - por exemplo, muitos programas podem começar a falhar quando algumas ou todas as partes do computador superaquecem.

O que exatamente acontece que faz com que os chips funcionem mal quando superaquecem?

dente afiado
fonte

Respostas:

26

Para expandir outras respostas.

  1. Correntes de vazamento mais altas: isso pode levar a mais problemas de aquecimento e facilmente resultar em fuga térmica.
  2. A relação sinal / ruído diminui à medida que o ruído térmico aumenta : Isso pode resultar em uma taxa de erro de bit mais alta, isso fará com que um programa seja mal interpretado e os comandos sejam mal interpretados. Isso pode causar operação "aleatória".
  3. Dopantes ficam mais móveis com o calor. Quando você tem um chip totalmente superaquecido, o transistor pode deixar de ser transistor. Isso é irreversível.
  4. O aquecimento desigual pode fazer com que a estrutura cristalina do Si se quebre. Uma pessoa normal pode experimentar colocando o vidro em um choque de temperatura. Vai quebrar, um pouco extremo, mas ilustra o ponto. Isso é irreversível.
  5. As memórias ROM que dependem de uma placa isolada carregada poderão perder memória à medida que a temperatura aumenta. A energia térmica, se alta o suficiente, pode permitir que a eletrônica escape do condutor carregado. Isso pode corromper a memória do programa. Isso acontece regularmente comigo durante a soldagem de CIs que já estão programados quando alguém superaquece o chip.
  6. Perda do controle do transistor: Com energia térmica suficiente, seus elétrons podem pular o intervalo. Um semicondutor é um material que possui uma pequena folga de banda para que seja facilmente preenchida com dopantes, mas grande o suficiente para que a temperatura operacional necessária não a transforme em um condutor onde a folga é menor que a energia térmica do material. Essa é uma simplificação excessiva e é a base de outro post, mas eu queria adicioná-lo e colocá-lo com minhas próprias palavras.

Há mais razões, mas essas são algumas importantes.

Kortuk
fonte
Parece provável que as falhas de temporização sejam uma das "mais razões" (a resistência do fio tende a aumentar com a temperatura, portanto, os caminhos de temporização limitados da capacitância da resistência podem violar seu pior caso garantido). Obviamente, a DRAM também vaza carga (como memória flash) mais rapidamente em temperaturas mais altas; sem uma compensação na taxa de atualização, os dados podem ser perdidos.
Paul A. Clayton
13

O principal problema com a operação do IC em altas temperaturas é o aumento da corrente de fuga de transistores individuais. A corrente de fuga pode aumentar a tal ponto que os níveis de tensão de comutação dos dispositivos são afetados, para que os sinais não possam se propagar adequadamente dentro do chip e para de funcionar. Eles geralmente se recuperam quando são deixados esfriar, mas esse nem sempre é o caso.

Os processos de fabricação para operação em alta temperatura (até 300 ° C) empregam a tecnologia CMOS de silicone no isolador, devido ao baixo vazamento em uma faixa de temperatura muito ampla.

Leon Heller
fonte
9

Apenas uma adição a algumas excelentes respostas: tecnicamente não são os dopantes que ficam mais móveis, é um aumento na concentração intrínseca de portadores. Se alguma coisa os dopantes / transportadores ficam menos móveis à medida que a treliça de cristal de silício começa a "vibrar" devido ao aumento da energia térmica, dificultando o fluxo de elétrons e buracos pelo dispositivo - espalhamento óptico de fônons que eu acredito que phsyics chama, mas eu posso estar errado.

Quando a concentração intrínseca do transportador aumenta além do nível de doping, você perde o controle elétrico do dispositivo. Portadores intrínsecos são os que existem antes de usarmos o silício, a idéia dos semicondutores é que adicionemos nossos próprios portadores para gerar junções pn e outras coisas interessantes que os transistores fazem. O silício alcança cerca de 150 graus Celsius, de modo que os processadores RF de alta velocidade e dissipadores de calor são muito importantes, pois na prática não é muito difícil atingir 150 graus Celsius. Existe uma ligação direta entre a concentração intrínseca do portador e a corrente de fuga de um dispositivo.

Como os outros caras mostraram, esta é apenas uma das razões pelas quais os chips falham - pode até chegar a algo tão simples quanto um fio de ligação ficar muito quente e sair do bloco, há uma lista enorme de coisas.

SimonBarker
fonte
Quando digo que os dopantes se tornam mais móveis, quero dizer os átomos físicos, não as transportadoras. A junção PN pode derivar e deixar de ser um diodo com tempo e calor. Segundo, quando você obtém uma temperatura mais alta o suficiente, sua energia térmica, que cria tanto os fônons de alta energia que interagem com os elétrons quanto os níveis de IR muito mais altos dentro da estrutura, pode fornecer elétrons com energia suficiente para saltar o gap entre as camadas de condução e valência. . O Si se destaca porque seu intervalo de banda é tal que 150degC dará aos elétrons a capacidade de saltar.
Kortuk
Sim, acho que estamos dizendo a mesma coisa apenas a partir de um ponto de partida diferente.
5609 SimonBarker
11
A maneira como você está explicando parece exatamente como eu faria depois de usar a física de dispositivos, depois de usar alguns dispositivos quânticos e de estado sólido aplicados, digo um pouco diferente, mas nós dois sabemos o quão simplificadas são essas explicações. Eu adicionei um pouco sobre esse efeito à minha resposta, pois acho muito importante. Dei o primeiro +1, que você merecia. Este é um efeito importante, pois leva a fuga térmica muito rapidamente.
Kortuk
8

Embora as correntes de fuga aumentem, eu esperaria um problema maior para muitos dispositivos baseados em MOS é que a quantidade de corrente passada através de um transistor MOS no estado "ligado" diminui à medida que o dispositivo esquenta. Para que um dispositivo opere corretamente, um transistor que esteja alternando um nó deve poder carregar ou descarregar qualquer capacitância latente naquela parte do circuito antes que qualquer outra coisa dependa da comutação desse nó. Reduzir a capacidade de passagem de corrente dos transistores reduzirá a taxa na qual eles podem carregar ou descarregar nós. Se um transistor não puder carregar ou descarregar um nó suficientemente antes que outra parte do circuito dependa da comutação desse nó, o circuito funcionará mal.

Observe que, para dispositivos NMOS, houve uma troca de projeto ao dimensionar transistores pull-up passivos; quanto maior a extensão passiva, mais rapidamente o nó pode mudar de baixo para alto, mas mais energia será desperdiçada sempre que o nó estiver baixo. Muitos desses dispositivos foram, portanto, operados um pouco perto do limite da operação correta, e os defeitos no aquecimento foram (e para os eletrônicos antigos, permanecem) bastante comuns. Para eletrônicos CMOS comuns, esses problemas geralmente são menos graves; Na prática, não tenho idéia de em que medida eles desempenham um papel em processadores como multi-GHZ.

supercat
fonte
2
Este é um efeito muito importante, eu estava prestes a pedir a Kortuk para adicioná-lo à sua resposta. Um dos fatores por trás da especificação máxima de Tj para um processador é que, acima desse valor, o processador pode não funcionar na velocidade nominal. É também por isso que um melhor resfriamento ajuda no overclock.
Andy
O primeiro parágrafo é o motivo pelo qual o computador para de funcionar quando aquece - diminui muito o ritmo para acompanhar a frequência do relógio.
W5VO
Na verdade, há outro fator que pode ter desempenhado um papel importante nos dispositivos NMOS, embora eu não esperasse isso nos designs mais comuns: muitos dispositivos NMOS tinham velocidades mínimas de clock, impostas pelo requisito de usar ou atualizar os dados em nós de armazenamento dinâmico antes de ser drenado pelo vazamento. Se as correntes de fuga aumentarem com a temperatura, a velocidade mínima do relógio também aumentará. Suspeito que a maioria dos dispositivos tenha sido operada suficientemente acima da velocidade mínima do relógio, para que um aumento na velocidade mínima não seja um problema, mas não tenho certeza.
Supercat 04/04
@ Andy, @ W5VO, eu estava escrevendo minha resposta ontem à noite e esqueci o caminho. O turno da noite causa danos ao seu cérebro.
Kortuk 5/05
2

Para complementar as respostas existentes, os circuitos de hoje são sensíveis aos dois efeitos de envelhecimento a seguir (não apenas esses, mas também os principais em processos <150nm):

Como a temperatura aumenta a mobilidade das transportadoras, aumenta os efeitos de HCI e NBTI, mas a temperatura não é a principal causa de NBTI e HCI:

  • O HCI é causado por uma alta frequência
  • NBTI por alta tensão

Esses dois efeitos do envelhecimento do silício causam danos reversíveis e irreversíveis aos transistores (afetando / deteriorando os substratos do isolador), o que aumenta o limiar de tensão do transistor (Vt). Como resultado, a peça exigirá uma tensão mais alta para manter o mesmo nível de desempenho, o que implica um aumento na temperatura de operação e, como dito em outros postes, ocorrerá um aumento no vazamento da porta do transistor.

Resumindo, a temperatura não tornará a peça envelhecida mais rapidamente, é a frequência e a tensão mais altas (ou seja, overclocking) que tornarão a peça envelhecida. Mas o envelhecimento dos transistores exigirá uma tensão operacional mais alta, o que tornará a peça mais quente.

Corolário: a conseqüência do overclock é o aumento da temperatura e da tensão necessária.

Eric
fonte
1

A razão geral pela qual os ICs falham irreversivelmente é porque o metal de alumínio dentro deles, usado para criar interconexões entre os vários elementos, derrete e abre ou aciona os dispositivos.

Sim, as correntes de vazamento aumentarão, mas geralmente não é a própria corrente de vazamento que é um problema, mas o calor que isso causa e o consequente dano ao metal dentro do CI.

Os circuitos de energia (por exemplo, fontes de alimentação, drivers de alta corrente etc.) podem ser danificados porque, em altas tensões, quando os drivers do transistor se desligam rapidamente, são geradas correntes internas que causam travamento do dispositivo ou distribuição desigual de energia no interior, causando a tensão local. aquecimento e subsequente falha de metal.

Um grande número (1000's) de ciclos térmicos repetidos pode causar falhas devido a incompatibilidades entre a expansão mecânica do IC e a embalagem, eventualmente causando o arranque dos fios de ligação ou a delimitação do material plástico da embalagem e a subsequente falha mecânica.

Obviamente, um grande número de especificações paramétricas de IC são especificadas apenas em uma determinada faixa de temperatura, e essas podem não estar nas especificações fora disso. Dependendo do projeto, isso pode causar falha ou mudança paramétrica inaceitável (enquanto o IC estiver fora da faixa de temperatura) - isso pode ocorrer para temperaturas altas ou baixas extremas.

jp314
fonte
O alumínio derrete a 660 ° C (1220 ° F). Os CIs morrem bem antes que essa temperatura seja atingida.
Dmitry Grigoryev
Fundamentalmente não. Em temperaturas abaixo disso, você certamente pode obter um comportamento elétrico indesejado; aquecimento excessivo e fuga térmica, mas na verdade isso não causa uma falha permanente até que parte do circuito atinja uma temperatura em que o Al (ou outro metal) se difunde no silício. Este (ponto eutético) é de cerca de 500 a 600 C. A maioria das outras falhas é recuperável. Falhas adicionais podem ser causadas por mau funcionamento elétrico, permitindo a aplicação de tensão excessiva nos portões ou ciclos térmicos do transistor (que causam falhas mecânicas).
Jsp14
Eu ainda tenho minhas dúvidas. Por exemplo, os CIs geralmente especificam a temperatura máxima de soldagem em torno de 300 ° C, portanto parece que ultrapassar esse limite é suficiente para causar danos permanentes.
Dmitry Grigoryev