Naukowcy z EPFL opublikowali programowalny framework, który pokonuje kluczowe wąskie gardło obliczeniowe systemów sztucznej inteligencji opartych na optyce. W serii eksperymentów klasyfikacji obrazów wykorzystali rozproszone światło z lasera o niskiej mocy, aby wykonać dokładne, skalowalne obliczenia, wykorzystując ułamek energii elektroniki.
Wraz ze wzrostem rozmiarów i wpływu systemów cyfrowej sztucznej inteligencji, rośnie również energia wymagana do ich szkolenia i wdrażania — nie wspominając o związanych z tym emisjach dwutlenku węgla. Najnowsze badania sugerują, że jeśli obecna produkcja serwerów AI będzie kontynuowana w obecnym tempie, ich roczne zużycie energii może przewyższyć zużycie energii przez mały kraj do 2027 r. Głębokie sieci neuronowe, inspirowane architekturą ludzkiego mózgu, są szczególnie energochłonne ze względu na miliony, a nawet miliardy połączeń między wieloma warstwami procesorów przypominających neurony.
Aby przeciwdziałać temu rosnącemu zapotrzebowaniu na energię, naukowcy podwoili wysiłki na rzecz wdrożenia optycznych systemów obliczeniowych, które istnieją eksperymentalnie od lat 80. XX wieku. Systemy te polegają na fotonach do przetwarzania danych i chociaż teoretycznie światło może być używane do wykonywania obliczeń znacznie szybciej i wydajniej niż elektrony, kluczowe wyzwanie utrudniło systemom optycznym prześcignięcie najnowocześniejszych rozwiązań elektronicznych.
„Aby klasyfikować dane w sieci neuronowej, każdy węzeł lub „neuron” musi podjąć „decyzję” o uruchomieniu lub nie, na podstawie ważonych danych wejściowych. Decyzja ta prowadzi do tego, co jest znane jako nieliniowa transformacja danych, co oznacza, że dane wyjściowe nie są wprost proporcjonalne do danych wejściowych” — mówi Christophe Moser, kierownik Laboratorium Urządzeń Fotonicznych Stosowanych w Szkole Inżynierii EPFL.
Moser wyjaśnia, że podczas gdy cyfrowe sieci neuronowe mogą łatwo wykonywać nieliniowe transformacje za pomocą tranzystorów, w systemach optycznych ten krok wymaga bardzo mocnych laserów. Moser współpracował ze studentami Mustafą Yildirimem, Niyazi Ulas Dinc i Ilkerem Oguzem, a także z kierownikiem Laboratorium Optyki Demetrim Psaltisem, aby opracować energooszczędną metodę wykonywania tych nieliniowych obliczeń optycznie. Ich nowe podejście obejmuje kodowanie danych, takich jak piksele obrazu, w przestrzennej modulacji wiązki lasera o niskiej mocy. Wiązka odbija się od siebie kilka razy, co prowadzi do nieliniowego mnożenia pikseli.
„Nasze eksperymenty z klasyfikacją obrazów przeprowadzone na trzech różnych zbiorach danych wykazały, że nasza metoda jest skalowalna i nawet 1000 razy bardziej energooszczędna niż najnowocześniejsze głębokie sieci cyfrowe, co czyni ją obiecującą platformą do realizacji optycznych sieci neuronowych” — mówi Psaltis.
Wyniki badań, dofinansowane ze środków grantu Sinergia przyznanego przez Szwajcarską Narodową Fundację Naukową, zostały niedawno opublikowane w czasopiśmie Nature Photonics.
Proste rozwiązanie konstrukcyjne
W naturze fotony nie oddziałują bezpośrednio ze sobą w sposób, w jaki oddziałują naładowane elektrony. Aby osiągnąć nieliniowe transformacje w układach optycznych, naukowcy musieli „zmusić” fotony do pośredniej interakcji, na przykład używając światła wystarczająco intensywnego, aby zmodyfikować właściwości optyczne szkła lub innego materiału, przez który przechodzi.
Naukowcy obeszli tę potrzebę lasera o dużej mocy, stosując eleganckie i proste rozwiązanie: zakodowali piksele obrazu przestrzennie na powierzchni wiązki lasera o małej mocy. Wykonując to kodowanie dwukrotnie, poprzez dostosowanie trajektorii wiązki w koderze, piksele są mnożone przez siebie, tj. podnoszone do kwadratu. Ponieważ kwadratowanie jest transformacją nieliniową, ta strukturalna modyfikacja osiąga nieliniowość niezbędną do obliczeń sieci neuronowych, przy ułamku kosztu energii. To kodowanie można przeprowadzić dwa, trzy, a nawet dziesięć razy, zwiększając nieliniowość transformacji i precyzję obliczeń.
„Szacujemy, że przy użyciu naszego systemu energia wymagana do optycznego obliczenia mnożenia jest o osiem rzędów wielkości mniejsza od tej wymaganej w przypadku systemu elektronicznego” – mówi Psaltis.
Moser i Psaltis podkreślają, że skalowalność ich podejścia niskoenergetycznego jest główną zaletą, ponieważ ostatecznym celem byłoby wykorzystanie hybrydowych systemów elektroniczno-optycznych w celu zmniejszenia zużycia energii przez cyfrowe sieci neuronowe. Jednak konieczne są dalsze badania inżynieryjne, aby osiągnąć taką skalę. Na przykład, ponieważ systemy optyczne wykorzystują inny sprzęt niż systemy elektroniczne, kolejnym krokiem, nad którym badacze już pracują, jest opracowanie kompilatora do tłumaczenia danych cyfrowych na kod, którego mogą używać systemy optyczne.