Nowy neuromorficzny chip dla sztucznej inteligencji na urządzeniach brzegowych, przy niewielkim ułamku energii i wielkości dzisiejszych platform obliczeniowych

Nowy neuromorficzny chip dla sztucznej inteligencji na urządzeniach brzegowych, przy niewielkim ułamku energii i wielkości dzisiejszych platform obliczeniowych

Międzynarodowy zespół naukowców zaprojektował i zbudował chip, który wykonuje obliczenia bezpośrednio w pamięci i może uruchamiać szeroką gamę aplikacji AI – wszystko za ułamek energii zużywanej przez platformy obliczeniowe do obliczeń AI ogólnego przeznaczenia.

Neuromorficzny układ NeuRRAM przybliża sztuczną inteligencję o krok do działania na szerokiej gamie urządzeń brzegowych, odłączonych od chmury, gdzie mogą wykonywać zaawansowane zadania poznawcze w dowolnym miejscu i czasie, bez polegania na połączeniu sieciowym ze scentralizowanym serwerem. Aplikacje obfitują w każdy zakątek świata i każdy aspekt naszego życia, od inteligentnych zegarków po zestawy słuchawkowe VR, inteligentne wkładki douszne, inteligentne czujniki w fabrykach i łaziki do eksploracji kosmosu.

Układ NeuRRAM jest nie tylko dwa razy bardziej energooszczędny niż najnowocześniejsze układy „compute-in-memory”, innowacyjna klasa układów hybrydowych, które przeprowadzają obliczenia w pamięci, ale także zapewnia wyniki równie dokładne jak konwencjonalne chipy cyfrowe. Konwencjonalne platformy AI są znacznie większe i zazwyczaj ograniczają się do korzystania z dużych serwerów danych działających w chmurze.

Ponadto chip NeuRRAM jest wysoce wszechstronny i obsługuje wiele różnych modeli i architektur sieci neuronowych. Dzięki temu chip może być wykorzystywany do wielu różnych zastosowań, w tym rozpoznawania i rekonstrukcji obrazu oraz rozpoznawania głosu.

„Zwyczajna mądrość jest taka, że ​​wyższa wydajność obliczeń w pamięci odbywa się kosztem wszechstronności, ale nasz układ NeuRRAM uzyskuje wydajność, nie poświęcając jednocześnie wszechstronności” – powiedział Weier Wan, pierwszy korespondent autora artykułu i niedawno doktorant. absolwent Uniwersytetu Stanforda, który pracował nad chipem w UC San Diego, gdzie współdoradzał mu Gert Cauwenberghs na Wydziale Bioinżynierii.

Zespół badawczy, współkierowany przez bioinżynierów z Uniwersytetu Kalifornijskiego w San Diego, przedstawia swoje wyniki w wydaniu Nature z 17 sierpnia.

Obecnie przetwarzanie sztucznej inteligencji jest zarówno energochłonne, jak i kosztowne obliczeniowo. Większość aplikacji AI na urządzeniach brzegowych polega na przenoszeniu danych z urządzeń do chmury, gdzie AI je przetwarza i analizuje. Następnie wyniki są przenoszone z powrotem do urządzenia. Dzieje się tak dlatego, że większość urządzeń brzegowych jest zasilana bateryjnie i w rezultacie ma tylko ograniczoną ilość mocy, którą można przeznaczyć na komputery.

Dzięki zmniejszeniu zużycia energii potrzebnej do wnioskowania AI na brzegu, ten chip NeuRRAM może prowadzić do bardziej niezawodnych, inteligentniejszych i dostępnych urządzeń brzegowych oraz inteligentniejszej produkcji. Może to również prowadzić do lepszej prywatności danych, ponieważ przesyłanie danych z urządzeń do chmury wiąże się ze zwiększonym ryzykiem bezpieczeństwa.

W przypadku chipów AI przenoszenie danych z pamięci do jednostek obliczeniowych jest jednym z głównych wąskich gardeł.

„To ekwiwalent ośmiogodzinnego dojazdu do pracy w ciągu dwugodzinnego dnia pracy” – powiedział Wan.

Aby rozwiązać ten problem przesyłania danych, badacze wykorzystali tak zwaną pamięć rezystancyjną o dostępie swobodnym, rodzaj pamięci nieulotnej, która umożliwia obliczenia bezpośrednio w pamięci, a nie w oddzielnych jednostkach obliczeniowych. RRAM i inne nowe technologie pamięci wykorzystywane jako macierze synaps do obliczeń neuromorficznych zostały zapoczątkowane w laboratorium Philipa Wonga, doradcy Wana w Stanford i głównego współtwórcy tej pracy. Obliczenia z chipami RRAM niekoniecznie są nowe, ale generalnie prowadzą do zmniejszenia dokładności obliczeń wykonywanych na chipie i braku elastyczności w architekturze chipa.

„Obliczenia w pamięci są powszechną praktyką w inżynierii neuromorficznej od czasu jej wprowadzenia ponad 30 lat temu” – powiedział Cauwenberghs. „Nowością NeuRRAM jest to, że ekstremalna wydajność idzie teraz w parze z dużą elastycznością dla różnorodnych aplikacji AI, prawie bez utraty dokładności w porównaniu ze standardowymi cyfrowymi platformami obliczeniowymi ogólnego przeznaczenia”.

Starannie opracowana metodologia była kluczem do pracy z wieloma poziomami „kooptymalizacji” w warstwach abstrakcji sprzętu i oprogramowania, od projektu układu po jego konfigurację w celu wykonywania różnych zadań AI. Ponadto zespół zadbał o uwzględnienie różnych ograniczeń, które rozciągają się od fizyki urządzeń pamięci po obwody i architekturę sieci.

„Ten układ zapewnia nam teraz platformę do rozwiązywania tych problemów w całym stosie, od urządzeń i obwodów po algorytmy” – powiedział Siddharth Joshi, adiunkt informatyki i inżynierii na Uniwersytecie Notre Dame, który rozpoczął pracę nad projektem jako doktorat studentka i badaczka podoktorancka w laboratorium Cauwenberghs na UC San Diego.

Wydajność chipa

Naukowcy zmierzyli wydajność energetyczną chipa za pomocą środka znanego jako produkt opóźnienia energii lub EDP. EDP ​​łączy zarówno ilość energii zużytej na każdą operację, jak i czas potrzebny do zakończenia operacji. W ten sposób chip NeuRRAM osiąga 1,6 do 2,3 razy niższy EDP (niższy oznacza lepszy) i 7 do 13 razy większą gęstość obliczeniową niż najnowocześniejsze układy.

Na chipie badacze wykonywali różne zadania sztucznej inteligencji. Osiągnął 99% dokładności w odręcznym zadaniu rozpoznawania cyfr; 85,7% na zadaniu klasyfikacji obrazów; i 84,7% w zadaniu rozpoznawania poleceń głosowych Google. Ponadto chip osiągnął również 70% redukcję błędów rekonstrukcji obrazu w zadaniu odzyskiwania obrazu. Wyniki te są porównywalne z istniejącymi układami cyfrowymi, które wykonują obliczenia z taką samą precyzją bitową, ale przy drastycznych oszczędnościach energii.

Naukowcy podkreślają, że jednym z kluczowych wkładów artykułu jest to, że wszystkie przedstawione wyniki są uzyskiwane bezpośrednio na sprzęcie. W wielu wcześniejszych pracach dotyczących układów obliczeniowych w pamięci wyniki testów porównawczych sztucznej inteligencji były często uzyskiwane częściowo za pomocą symulacji oprogramowania.

Kolejne kroki obejmują ulepszanie architektur i obwodów oraz skalowanie projektu do bardziej zaawansowanych węzłów technologicznych. Naukowcy planują również zająć się innymi zastosowaniami, takimi jak impulsowe sieci neuronowe.

„Dzięki naszej dynamicznej platformie NeuRRAM możemy działać lepiej na poziomie urządzenia, ulepszać projektowanie obwodów, aby wdrażać dodatkowe funkcje i zajmować się różnorodnymi aplikacjami” — powiedział Rajkumar Kubendran, adiunkt na Uniwersytecie w Pittsburghu, który rozpoczął pracę nad projektem podczas .D. student w grupie badawczej Cauwenberghs na UC San Diego.

Ponadto Wan jest członkiem założycielem startupu, który pracuje nad rozwojem technologii obliczeniowej w pamięci. „Jako badacz i inżynier, moją ambicją jest wprowadzanie innowacji badawczych z laboratoriów do praktycznego zastosowania” – powiedział Wan.

Nowa architektura

Kluczem do efektywności energetycznej NeuRRAM jest innowacyjna metoda wykrywania wyjścia w pamięci. Konwencjonalne podejścia wykorzystują napięcie jako wejście i mierzą prąd jako wynik. Ale to prowadzi do zapotrzebowania na bardziej złożone i bardziej energochłonne obwody. W NeuRRAM zespół zaprojektował obwód neuronowy, który wyczuwa napięcie i przeprowadza konwersję analogowo-cyfrową w energooszczędny sposób. To wykrywanie w trybie napięciowym może aktywować wszystkie wiersze i wszystkie kolumny macierzy RRAM w jednym cyklu obliczeniowym, umożliwiając wyższą równoległość.

W architekturze NeuRRAM obwody neuronowe CMOS są fizycznie przeplatane wagami RRAM. Różni się od konwencjonalnych konstrukcji, w których obwody CMOS znajdują się zwykle na obwodzie obciążników RRAM. Połączenia neuronu z macierzą RRAM można skonfigurować tak, aby służyły jako wejście lub wyjście neuronu. Umożliwia to wnioskowanie o sieci neuronowej w różnych kierunkach przepływu danych bez ponoszenia kosztów ogólnych lub zużycia energii. To z kolei ułatwia rekonfigurację architektury.

Aby upewnić się, że dokładność obliczeń AI może być zachowana w różnych architekturach sieci neuronowych, badacze opracowali zestaw technik kooptymalizacji algorytmów sprzętowych. Techniki zostały zweryfikowane na różnych sieciach neuronowych, w tym splotowych sieciach neuronowych, pamięci długoterminowej krótkotrwałej i ograniczonych maszynach Boltzmanna.

Jako neuromorficzny chip AI, NeuroRRAM wykonuje równoległe przetwarzanie rozproszone w 48 rdzeniach neurosynaptycznych. Aby jednocześnie osiągnąć wysoką wszechstronność i wysoką wydajność, NeuRRAM obsługuje równoległość danych poprzez mapowanie warstwy modelu sieci neuronowej na wiele rdzeni w celu równoległego wnioskowania na wielu danych. Ponadto NeuRRAM oferuje równoległość modelu, mapując różne warstwy modelu na różne rdzenie i wykonując wnioskowanie w sposób potokowy.

Międzynarodowy zespół badawczy

Praca jest wynikiem pracy międzynarodowego zespołu badaczy.

Zespół UC San Diego zaprojektował obwody CMOS, które implementują funkcje neuronowe współpracujące z macierzami RRAM w celu obsługi funkcji synaptycznych w architekturze chipa, zapewniając wysoką wydajność i wszechstronność. Wan, ściśle współpracując z całym zespołem, wdrożył projekt; scharakteryzował chip; trenował modele AI; i przeprowadził eksperymenty. Wan opracował również łańcuch narzędzi oprogramowania, który mapuje aplikacje AI na chipie.

Macierz synaps RRAM i warunki jej działania zostały szczegółowo scharakteryzowane i zoptymalizowane na Uniwersytecie Stanforda.

Macierz RRAM została wyprodukowana i zintegrowana z CMOS na Uniwersytecie Tsinghua.

Zespół z Notre Dame przyczynił się zarówno do zaprojektowania, jak i architektury chipa, a następnie do projektowania i szkolenia modelu uczenia maszynowego.

Badania rozpoczęto w ramach finansowanego przez National Science Foundation projektu Expeditions in Computing on Visual Cortex on Silicon na Penn State University, przy stałym wsparciu finansowym programu Office of Naval Research Science of AI, Semiconductor Research Corporation i programu DARPA JUMP oraz Western Digital Corporation.

Click to rate this post!
[Total: 0 Average: 0]
science