Con la crescente domanda di intelligenza artificiale (AI) e il miglioramento della densità di potenza, i data center si trovano ad affrontare sfide di gestione termica senza precedenti. È necessario un accurato monitoraggio della temperatura in tempo reale per ottimizzare le prestazioni e l'efficienza prevenendo al contempo il surriscaldamento. Queste soluzioni di rilevamento devono essere precise, reattive, robuste e in grado di far fronte a carichi termici in rapida evoluzione su dispositivi ad alta sensibilità.
Questo articolo esplorerà le sfide di gestione termica affrontate dai moderni progettisti di data center con intelligenza artificiale e fornirà un'analisi dettagliata di vari sistemi di raffreddamento, tra cui il condizionamento dell'aria, il raffreddamento a immersione e le soluzioni di gestione termica. Quindi, introdurre le soluzioni di termistori a coefficiente di temperatura negativo (NTC) di EPCOS (TDK) e spiegare come utilizzare queste soluzioni per affrontare le sfide della gestione termica.
Perché i data center AI porteranno nuove sfide nella gestione termica?
L'hardware AI come le unità di elaborazione grafica (GPU) e le unità di elaborazione tensore (TPU) in genere consumano molta più energia rispetto alle tradizionali unità di elaborazione centrale (CPU). Pertanto, i data center focalizzati sull’intelligenza artificiale hanno spesso una densità di potenza relativamente elevata e hotspot concentrati, il che rende difficile la gestione con i metodi di raffreddamento tradizionali.
Ancora peggio, i carichi di lavoro dell’IA spesso variano notevolmente e durante l’addestramento di rinforzo o le operazioni di inferenza, i carichi termici possono aumentare rapidamente. Se non viene eseguita un'adeguata gestione termica, queste situazioni possono portare a un degrado delle prestazioni, tempi di inattività non pianificati e un degrado dell'accelerazione hardware.
Per soddisfare queste esigenze emergenti, è necessario adottare metodi di raffreddamento più avanzati per i data center. Il raffreddamento diretto del truciolo è un metodo di raffreddamento comune. Questa tecnologia allinea tubi di raffreddamento, piastre fredde o scambiatori di calore direttamente con dispositivi ad alta potenza come CPU, GPU e memoria. Inoltre, è possibile scegliere anche il metodo di raffreddamento per immersione, che prevede l'immersione dell'intero server in un liquido non conduttivo.
Anche l'aria condizionata sta subendo vari aggiornamenti. Ad esempio, le unità di raffreddamento interfila e le unità di raffreddamento integrate negli armadi possono fornire un raffreddamento a zone sulla base del sistema di condizionamento dell'aria complessivo della sala computer, ovvero rispondere in tempo reale ai problemi di surriscaldamento locale.
Sebbene le condizioni specifiche di questi sistemi di raffreddamento varino, stanno tutte guidando la domanda di monitoraggio della temperatura con una distribuzione più ampia e una risposta più rapida. Questo articolo prende come esempio il sistema di raffreddamento dei chip collegato direttamente. Ogni chip target deve essere dotato di un sensore dissipatore di calore per garantire il mantenimento degli standard di temperatura. È necessario monitorare l'afflusso di refrigerante attraverso i sensori montati sulla tubazione e altri sensori devono essere installati sul dispositivo di distribuzione del refrigerante e sullo scambiatore di calore per garantire un funzionamento efficiente del sistema.
I vantaggi dei sensori a termistore NTC nelle applicazioni dei data center
I termistori NTC possono soddisfare tutti questi requisiti. Come suggerisce il nome, la resistenza dei sensori NTC diminuisce con l'aumentare della temperatura. Per quanto riguarda i termistori NTC, ciò è ottenuto tramite un piccolo elemento termosensibile in ossido ceramico racchiuso in un involucro protettivo in metallo o resina epossidica.
La Figura 1 mostra la tipica curva di resistenza alla temperatura di un termistore con una resistenza nominale di 2-5 k Ω a 25 °C. Come mostrato nella figura, maggiore è la resistenza, più adatto è il termistore per applicazioni ad alta temperatura poiché la variazione di resistenza è più facile da misurare.
Grafico tipico della curva di resistenza alla temperatura
Figura 1: La tipica curva di resistenza alla temperatura di un termistore con un valore nominale compreso tra 2 k Ω e 5 k Ω a 25 °C. (Immagine per gentile concessione di EPCOS (TDK))
I vantaggi offerti dai termistori NTC ai data center AI includono
Alta precisione e risposta rapida: estremamente sensibile alle leggere variazioni di temperatura e, grazie alla piccola massa termica, la velocità di risposta è rapida. Queste caratteristiche consentono ai termistori NTC di soddisfare in modo efficace le esigenze termiche in rapida fluttuazione dei data center AI.
Durabilità e stabilità: realizzato con materiali robusti, ha un'eccellente affidabilità a lungo termine e una deriva minima della resistenza nel tempo. Questa stabilità riduce al minimo le esigenze di manutenzione e riduce il rischio di tempi di fermo imprevisti nella massima misura possibile.
Dimensioni compatte e installazione flessibile: grazie alle sue dimensioni ridotte, può essere facilmente integrato in ambienti data center ad uso intensivo di dispositivi con spazio limitato. Caratterizzato da varie forme, può soddisfare le diverse esigenze dei sistemi di raffreddamento nei data center di intelligenza artificiale.
La serie di termistori NTC EPCOS incarna pienamente questi vantaggi. Questa serie di prodotti comprende soluzioni per il monitoraggio di radiatori e tubazioni, sistemi di raffreddamento sommersi e unità di trattamento dell'aria.
Monitoraggio di componenti ad alta potenza tramite termistori NTC installati sui dissipatori di calore
I processori ad alta potenza come GPU e TPU richiedono un rigoroso monitoraggio termico per mantenere le prestazioni e prevenire il surriscaldamento. B57703M0103G040 (Figura 2) viene utilizzato per l'installazione diretta sul dissipatore di calore, rendendolo molto adatto a questo compito. Questo sensore fissato a vite incapsula un termistore NTC in un alloggiamento della targhetta metallica con orecchie ad anello sporgenti.
Termistore terminale loop EPCOS B57703M0103G040
Figura 2: Il termistore con giunzione ad anello B57703M0103G040 può ottenere un monitoraggio preciso della temperatura dei dissipatori di calore del processore ad alta potenza. (Fonte immagine: EPCOS (TDK))
Il design dei sensori fissati a vite è comodo e importante, poiché garantisce un buon accoppiamento termico con la superficie del dissipatore di calore e una pressione di contatto costante, riducendo così la resistenza termica e migliorando la precisione della misurazione quando il carico cambia rapidamente.
Il sensore ha superato un test di stabilità a lungo termine di 10.000 ore a una temperatura di +70 °C e può essere utilizzato in condizioni di temperatura elevata comunemente presenti nei carichi di lavoro dei data center AI. La resistenza nominale del sensore a +25 °C è di 10 k Ω, fornendo una base affidabile per misurare temperature operative più elevate e un feedback accurato per il sistema di controllo della temperatura.

