Il calcolo in memoria può risolvere l'atto di bilanciamento della memoria AI di volume, velocità ed elaborazione



un giorno fa p Jake Hertz Con l'emergere di AI / ML, i sistemi informatici devono affrontare sfide di memoria senza precedenti. Le applicazioni ei dispositivi AI / ML sono unici in quanto richiedono l'accesso parallelo a enormi quantità di dati alla massima velocità possibile e alla minima potenza possibile. In questo articolo, esploreremo le esigenze di memoria poste dai carichi di lavoro AI / ML e come gli ingegneri stanno iniziando ad affrontare questi problemi.
Uno dei motivi per cui l'IA sta emergendo solo ora è che richiede molti dati. A testimonianza di ciò, Tesla ha accumulato oltre 1,3 miliardi di miglia di dati di guida per costruire la sua infrastruttura AI, mentre Microsoft aveva bisogno di cinque anni di dati vocali continui per insegnare ai computer a parlare.
Chiaramente, per gestire queste enormi quantità di dati, i sistemi di memoria dovranno aumentare il volume e la scalabilità. Gli ingegneri hanno cercato di aggiungere semplicemente sistemi di memoria più grandi, ma questo ha un costo di prestazioni ridotte. I progettisti hanno anche esaminato i modi per archiviare la memoria in modo più efficiente utilizzando i data lake, che sono archivi centralizzati che consentono di archiviare i dati strutturati o non strutturati su qualsiasi scala.
Poiché le applicazioni AI / ML stanno entrando in applicazioni mission-critical che richiedono un processo decisionale in tempo reale, la velocità è della massima importanza. Pensa a un'auto autonoma: se non è in grado di prendere decisioni in frazioni di secondo, può essere una questione di vita o di morte per il guidatore, i pedoni o altri sulla strada. Sfortunatamente, questo requisito di velocità è direttamente in conflitto con una memoria più grande.
Il ben noto muro di memoria delle architetture di von Neumann sostiene essenzialmente che una memoria più grande significa una memoria più lenta. Per questo motivo, gli ingegneri stanno valutando la possibilità di rompere gli schemi dell'architettura von Neumann con l'elaborazione in memoria che emerge come un nuovo concetto. In diretto contrasto con la richiesta di velocità c'è la richiesta di efficienza energetica.
La prima generazione di dispositivi con capacità di intelligenza artificiale, come Amazon Alexa, richiedeva che i dispositivi fossero collegati a una presa a causa dell'enorme consumo di energia. Ora, la prossima generazione punta a dispositivi autonomi alimentati a batteria, rendendo l'efficienza energetica fondamentale. Da un punto di vista convenzionale, il consumo energetico dinamico su chip introduce un conflitto tra potenza e velocità; più veloce è la frequenza del sistema, maggiore è il consumo di energia.
Più significativo di questo, tuttavia, è che il ridimensionamento di Dennard ha fatto sì che l'energia di spostamento dei dati sia il maggior contributore al consumo energetico su chip. Questa realtà è in conflitto con le richieste di grandi volumi di applicazioni AI, che richiedono lo spostamento di enormi quantità di dati. Ancora una volta, il concetto di elaborazione in memoria sembra essere una soluzione a questo problema.
Alcune aziende e gruppi di ricerca, come Imec e Global Foundries, hanno evitato il collo di bottiglia di von Neumann costruendo chip AI con elaborazione di rete neurale in memoria. Altri, come Untether AI, sperano di affrontare i conflitti di velocità, archiviazione e consumo energetico di AI / ML sfruttando il calcolo in memoria, come si è visto nel nuovo acceleratore tsunAImi. Questo nuovo acceleratore offre alcune specifiche impressionanti: fino a due PetaOperations al secondo (POP) in un fattore di forma della scheda PCI-Express standard ed efficienza energetica di 8 TOP / W.
Questi risultati, afferma Untether AI, sono da tre a quattro volte più veloce del concorrente più vicino (a seconda dell'applicazione). Al centro della loro architettura di elaborazione in-memory c'è un banco di memoria costituito da 385 KB di SRAM con un array 2D di 512 elementi di elaborazione. Con 511 banchi per chip, ogni dispositivo offre 200 MB di memoria e gestisce fino a 502 TOP in modalità "sport".
Per la massima efficienza energetica, il dispositivo offre la modalità "eco" per 8 TOP / W. Con l'intelligenza artificiale qui per restare, un problema centrale per molti ingegneri sarà come superare i requisiti di memoria unici e contrastanti. Poiché il calcolo in-memory rappresenta una potenziale soluzione, aziende come Untether AI e Imec sembrano pensare nella giusta direzione.
Hai esperienza con architetture di memoria per applicazioni AI / ML? Quali sfide di design devi affrontare? Condividi i tuoi pensieri nei commenti qui sotto ..

Yorumlar

Bu blogdaki popüler yayınlar

Classici protocolli CAN vs CAN FD: le differenze che contano per i progettisti

Che cos'è DrMOS, l'IC che alimenta i processori di nuova generazione?

Il modello Elmore Delay nel design VLSI