Produkcja mowy jest złożonym zjawiskiem neuronowym, którego wyjaśnienie nie jest w stanie wyjaśnić badaczom. Oddzielenie złożonej sieci obszarów nerwowych kontrolujących precyzyjny ruch mięśni w jamie ustnej, szczęce i języku od obszarów przetwarzających informację słuchową związaną z słyszeniem własnego głosu jest złożonym problemem, który musi zostać przezwyciężony dla następnej generacji mowy. wytwarzanie protez.
Teraz zespół naukowców z New York University dokonał kluczowych odkryć, które pomagają rozwikłać tę sieć, i wykorzystuje ją do opracowania technologii rekonstrukcji głosu, która odtwarza głosy pacjentów, którzy utracili zdolność mówienia.
Zespół, pod kierownictwem Adeen Flinker – profesora inżynierii biomedycznej na Uniwersytecie Nowojorskim w Tandon i neurologii w Grossman School of Medicine na Uniwersytecie Nowojorskim – oraz Yao Wanga – profesora inżynierii biomedycznej oraz inżynierii elektrycznej i komputerowej na Uniwersytecie Nowojorskim w Tandon, a także członek NYU WIRELESS stworzył i wykorzystał złożone sieci neuronowe do odtworzenia mowy z nagrań mózgowych, a następnie wykorzystał tę rekonstrukcję do analizy procesów kierujących ludzką mową. Szczegółowo opisali swoje nowe odkrycia w nowym artykule opublikowanym w Proceedings of the National Academy of Sciences (PNAS).
Produkcja mowy ludzkiej to złożone zachowanie, które obejmuje wyprzedzającą kontrolę poleceń motorycznych, a także przetwarzanie zwrotne własnej mowy. Procesy te wymagają jednoczesnego zaangażowania wielu sieci mózgowych. Jednakże trudno było oddzielić stopień i czas rekrutacji kory mózgowej do kontroli motorycznej od przetwarzania sensorycznego generowanego przez produkcję mowy.
W nowym artykule badaczom udało się rozwikłać skomplikowane procesy sprzężenia zwrotnego i wyprzedzającego podczas produkcji mowy. Wykorzystując innowacyjną architekturę głębokiego uczenia się na nagraniach neurochirurgicznych człowieka, zespół zastosował oparty na regułach różniczkowalny syntezator mowy do dekodowania parametrów mowy na podstawie sygnałów korowych. Wdrażając architektury sieci neuronowych, które rozróżniają przyczynowy (wykorzystujący bieżące i przeszłe sygnały neuronowe do dekodowania bieżącej mowy), przeciwprzyczynowy (wykorzystujący obecne i przyszłe sygnały neuronowe) lub kombinację obu (nieprzyczynowych) splotów czasowych, badacze byli w stanie szczegółowo przeanalizować wkład sprzężenia zwrotnego i sprzężenia zwrotnego w produkcję mowy.
„To podejście pozwoliło nam rozwikłać przetwarzanie sygnałów neuronowych ze sprzężeniem zwrotnym i sprzężeniem zwrotnym, które pojawiają się jednocześnie, gdy wytwarzamy mowę i odbieramy informacje zwrotne na temat własnego głosu” – mówi Flinker.
To nowatorskie podejście nie tylko zdekodowało możliwe do zinterpretowania parametry mowy, ale także zapewniło wgląd w czasowe pola recepcyjne rekrutowanych obszarów kory mózgowej. Co ciekawe, odkrycia podważają panujące poglądy, które segregują sprzężenie zwrotne i sieci korowe wyprzedzające. Analizy ujawniły zróżnicowaną architekturę mieszanego sprzężenia zwrotnego i przetwarzania wyprzedzającego, obejmującą korę czołową i skroniową. Ta nowatorska perspektywa w połączeniu z wyjątkową wydajnością dekodowania mowy stanowi znaczący krok naprzód w naszym rozumieniu skomplikowanych mechanizmów neuronowych leżących u podstaw produkcji mowy.
Naukowcy wykorzystali tę nową perspektywę do opracowania protez, które potrafią odczytywać aktywność mózgu i dekodować ją bezpośrednio na mowę. Choć wielu badaczy pracuje nad opracowaniem takich urządzeń, prototyp Uniwersytetu Nowojorskiego ma jedną kluczową różnicę — jest w stanie w niezwykłym stopniu odtworzyć głos pacjenta przy użyciu jedynie niewielkiego zestawu danych. W rezultacie pacjenci nie odzyskają głosu po jego utracie – odzyskają głos. Dzieje się tak dzięki głębokiej sieci neuronowej, która uwzględnia ukrytą przestrzeń słuchową i można ją wytrenować na zaledwie kilku próbkach indywidualnego głosu, np. wideo na YouTube lub nagraniu Zoom.
Aby zebrać dane, badacze zwrócili się do grupy pacjentów cierpiących na padaczkę oporną na leczenie, której obecnie nie można leczyć farmakologicznie. Pacjentom tym wszczepiono do mózgów siatkę podtwardówkowych elektrod EEG na okres jednego tygodnia w celu monitorowania ich stanu i wyrazili zgodę na dodatkowe 64 mniejsze elektrody umieszczone pomiędzy zwykłymi elektrodami klinicznymi. Dostarczyły badaczom kluczowych informacji na temat aktywności mózgu podczas mówienia.
Oprócz Flinkera i Wanga w skład badaczy wchodzą Ran Wang, Xupeng Chen i Amirhossein Khalilian-Gourtani z Wydziału Inżynierii Elektrycznej i Komputerowej Uniwersytetu Nowojorskiego w Tandon, Leyao Yu z Wydziału Inżynierii Biomedycznej, Patricia Dugan, Daniel Friedman i Orrin Devinsky z Neurologii Grossmana na Uniwersytecie Nowojorskim Oddziału i Wernera Doyle’a z Oddziału Neurochirurgii.
Artykuł ten powstał w wyniku grantu o wartości 850 000 dolarów od NSF, którego celem było opracowanie dekoderów neuronowych do przetwarzania języka i opracowanie modeli ukierunkowanej łączności, a także grantów NIH R01NS109367, R01NS115929 i R01DC018805. Teraz badacze zarobili dodatkowe 950 000 dolarów na kontynuację tej pracy, finansowanej wspólnie przez program NSF Collaborative Research in Computational Neuroscience (CRCNS) oraz program inżynierii dla osób niepełnosprawnych i rehabilitacji (DARE). Fundusze wesprą dalszy rozwój podejść obliczeniowych, które pozwolą na głębsze zrozumienie neurobiologii języka i przełożą się na nowatorskie zastosowania kliniczne w zakresie mowy i języka.