Badacze z EPFL opracowali algorytm umożliwiający szkolenie analogowej sieci neuronowej równie dokładnie jak sieci cyfrowej, umożliwiając opracowanie wydajniejszych alternatyw dla energochłonnego sprzętu do głębokiego uczenia się.
Dzięki ich zdolności do przetwarzania ogromnych ilości danych w drodze „uczenia się” algorytmicznego, a nie tradycyjnego programowania, często wydaje się, że potencjał głębokich sieci neuronowych, takich jak Chat-GPT, jest nieograniczony. Jednak w miarę wzrostu zakresu i wpływu tych systemów rosną także ich rozmiary, złożoność i zużycie energii – przy czym to ostatnie jest na tyle znaczące, że budzi obawy dotyczące wpływu na globalną emisję dwutlenku węgla.
I choć często myślimy o postępie technologicznym w kategoriach przejścia z technologii analogowej na cyfrową, badacze szukają obecnie odpowiedzi na ten problem w fizycznych alternatywach dla cyfrowych głębokich sieci neuronowych. Jednym z takich badaczy jest Romain Fleury z Laboratorium Inżynierii Falowej EPFL w Szkole Inżynierskiej. W artykule opublikowanym w czasopiśmie Science on i jego współpracownicy opisują algorytm uczenia systemów fizycznych, który wykazuje większą prędkość, większą niezawodność i zmniejszone zużycie energii w porównaniu z innymi metodami.
„Z powodzeniem przetestowaliśmy nasz algorytm uczący na trzech systemach fizycznych opartych na falach, które do przenoszenia informacji wykorzystują fale dźwiękowe, fale świetlne i mikrofale, a nie elektrony. Jednak nasze wszechstronne podejście można zastosować do uczenia dowolnego układu fizycznego” – mówi pierwszy autor i Badacz LWE Ali Momeni.
Podejście „bardziej wiarygodne biologicznie”.
Trening sieci neuronowych odnosi się do pomagania systemom w uczeniu się generowania optymalnych wartości parametrów dla zadania, takiego jak rozpoznawanie obrazu lub mowy. Tradycyjnie składa się z dwóch etapów: przejścia w przód, podczas którego dane są przesyłane przez sieć, a na podstawie wyników obliczana jest funkcja błędu; oraz przejście wstecz (znane również jako propagacja wsteczna lub BP), podczas którego obliczany jest gradient funkcji błędu w odniesieniu do wszystkich parametrów sieci.
Podczas powtarzanych iteracji system aktualizuje się na podstawie tych dwóch obliczeń, aby zwracać coraz dokładniejsze wartości. Problem? Oprócz tego, że jest bardzo energochłonny, BP jest słabo przystosowany do systemów fizycznych. W rzeczywistości szkolenie systemów fizycznych zwykle wymaga cyfrowego bliźniaka na etapie BP, co jest nieefektywne i niesie ryzyko niedopasowania symulacji do rzeczywistości.
Pomysł naukowców polegał na zastąpieniu kroku BP drugim przejściem w przód przez system fizyczny w celu lokalnej aktualizacji każdej warstwy sieci. Oprócz zmniejszenia zużycia energii i wyeliminowania potrzeby stosowania cyfrowego bliźniaka, metoda ta lepiej odzwierciedla ludzkie uczenie się.
„Struktura sieci neuronowych jest inspirowana mózgiem, ale jest mało prawdopodobne, aby mózg uczył się poprzez BP” – wyjaśnia Momeni. „Pomysł jest taki, że jeśli lokalnie przeszkolimy każdą warstwę fizyczną, będziemy mogli wykorzystać nasz rzeczywisty system fizyczny zamiast najpierw budować jego cyfrowy model. Dlatego opracowaliśmy podejście, które jest bardziej wiarygodne biologicznie”.
Badacze z EPFL, wraz z Philippem del Hougne z CNRS IETR i Babakiem Rahmanim z Microsoft Research, wykorzystali swój algorytm fizycznego lokalnego uczenia się (PhyLL) do szkolenia eksperymentalnych systemów akustycznych i mikrofalowych oraz modelowanego systemu optycznego do klasyfikowania danych, takich jak dźwięki i obrazy samogłosek. Oprócz tego, że metoda ta wykazywała dokładność porównywalną ze szkoleniem opartym na BP, była solidna i łatwa w adaptacji – nawet w systemach narażonych na nieprzewidywalne zakłócenia zewnętrzne – w porównaniu z najnowocześniejszym stanem techniki.
Analogowa przyszłość?
Chociaż podejście LWE jest pierwszym pozbawionym BP szkoleniem głębokich fizycznych sieci neuronowych, nadal wymagane są pewne cyfrowe aktualizacje parametrów. „To hybrydowe podejście do szkolenia, ale naszym celem jest maksymalne ograniczenie obliczeń cyfrowych” – mówi Momeni.
Naukowcy mają teraz nadzieję na wdrożenie swojego algorytmu w systemie optycznym na małą skalę, a ostatecznym celem będzie zwiększenie skalowalności sieci.
„W naszych eksperymentach wykorzystaliśmy sieci neuronowe składające się z maksymalnie 10 warstw, ale czy nadal będą działać ze 100 warstwami i miliardami parametrów? To kolejny krok, który będzie wymagał pokonania ograniczeń technicznych systemów fizycznych”.