Proteza mowy opracowana przez zespół neurologów, neurochirurgów i inżynierów Duke’a może przełożyć sygnały mózgowe danej osoby na to, co próbuje ona powiedzieć.
Nowa technologia, która ukazała się 6 listopada w czasopiśmie Nature Communications, może pewnego dnia pomóc osobom, które nie mogą mówić z powodu zaburzeń neurologicznych, odzyskać zdolność komunikowania się za pośrednictwem interfejsu mózg-komputer.
„Wielu pacjentów cierpi na wyniszczające zaburzenia motoryczne, takie jak ALS (stwardnienie zanikowe boczne) lub zespół zamknięcia, które mogą upośledzać ich zdolność mówienia” – powiedział dr Gregory Cogan, profesor neurologii na Uniwersytecie Duke School of Medicine i jeden z głównych badaczy zaangażowanych w projekt. „Jednak obecne dostępne narzędzia umożliwiające im komunikację są na ogół bardzo powolne i kłopotliwe”.
Wyobraź sobie, że słuchasz audiobooka przy połowie prędkości. To najlepsza obecnie dostępna szybkość dekodowania mowy, wynosząca około 78 słów na minutę. Ludzie jednak mówią około 150 słów na minutę.
Opóźnienie między szybkością mówienia i dekodowania mowy jest częściowo spowodowane stosunkowo małą liczbą czujników aktywności mózgu, które można połączyć z cienkim jak papier kawałkiem materiału, który leży na powierzchni mózgu. Mniej czujników dostarcza mniej czytelnych informacji do zdekodowania.
Aby przezwyciężyć dotychczasowe ograniczenia, Cogan nawiązał współpracę z doktorem Jonathanem Viventi, członkiem wydziału Duke Institute for Brain Sciences, którego laboratorium inżynierii biomedycznej specjalizuje się w tworzeniu ultracienkich i elastycznych czujników mózgowych o dużej gęstości.
Na potrzeby tego projektu Viventi i jego zespół zapakowali imponujące 256 mikroskopijnych czujników mózgowych na kawałek elastycznego plastiku klasy medycznej wielkości znaczka pocztowego. Neurony oddalone od siebie o ziarenko piasku mogą mieć bardzo różne wzorce aktywności podczas koordynowania mowy, dlatego konieczne jest rozróżnienie sygnałów z sąsiednich komórek mózgowych, aby móc dokładnie przewidzieć zamierzoną mowę.
Po wyprodukowaniu nowego implantu Cogan i Viventi nawiązali współpracę z kilkoma neurochirurgami ze szpitala Duke University Hospital, w tym z doktorem medycyny Derekiem Southwellem, doktorem medycyny Nandan Lad i doktorem Allanem Friedmanem, którzy pomogli w rekrutacji czterech pacjentów do testowania implantów. Eksperyment wymagał od badaczy tymczasowego umieszczenia urządzenia u pacjentów poddawanych operacji mózgu z powodu innych schorzeń, np. leczenia choroby Parkinsona lub usunięcia guza. Cogan i jego zespół mieli ograniczony czas na przetestowanie urządzenia na sali operacyjnej.
„Lubię to porównywać do załogi pit-stopu NASCAR” – powiedział Cogan. „Nie chcemy wydłużać procedury operacyjnej, więc musieliśmy wejść i wyjść w ciągu 15 minut. Gdy tylko chirurg i zespół medyczny powiedzieli: «Start!» wkroczyliśmy do akcji i pacjent wykonał zadanie.”
Zadanie polegało na prostym słuchaniu i powtarzaniu. Uczestnicy usłyszeli serię bezsensownych słów, takich jak „ava”, „kug” czy „vip”, a następnie wypowiedzieli każde z nich na głos. Urządzenie rejestrowało aktywność kory motorycznej mowy każdego pacjenta, koordynując prawie 100 mięśni poruszających wargami, językiem, szczęką i krtani.
Następnie Suseendrakumar Duraivel, pierwsza autorka nowego raportu i absolwentka inżynierii biomedycznej na Uniwersytecie Duke, pobrała dane dotyczące neuronów i mowy z sali operacyjnej i wprowadziła je do algorytmu uczenia maszynowego, aby sprawdzić, jak dokładnie może przewidzieć, jaki dźwięk będzie emitowany. dokonano wyłącznie w oparciu o zapisy aktywności mózgu.
W przypadku niektórych dźwięków i uczestników, np. /g/ w słowie „gak”, dekoder poprawnie trafił w 84% przypadków, gdy był to pierwszy dźwięk w ciągu trzech składających się na dane nonsensowne słowo.
Dokładność spadła jednak, gdy dekoder analizował dźwięki w środku lub na końcu nonsensownego słowa. Problemem było również, jeśli dwa dźwięki były podobne, np. /p/ i /b/.
Ogólnie rzecz biorąc, dekoder był dokładny w 40% przypadków. Może się to wydawać skromnym wynikiem testu, ale był całkiem imponujący, biorąc pod uwagę, że podobne osiągnięcia techniczne polegające na przetwarzaniu mowy na mowę wymagają danych obejmujących godziny, a nawet dni. Algorytm dekodowania mowy, którego użył Duraivel, działał jednak z zaledwie 90 sekundami mówionych danych z 15-minutowego testu.
Duraivel i jego mentorzy są podekscytowani możliwością stworzenia bezprzewodowej wersji urządzenia dzięki niedawnej dotacji w wysokości 2,4 mln dolarów od Narodowego Instytutu Zdrowia.
„Teraz opracowujemy tego samego rodzaju urządzenia rejestrujące, ale bez przewodów” – powiedział Cogan. „Mógłbyś się poruszać i nie musiałbyś być przywiązany do gniazdka elektrycznego, co jest naprawdę ekscytujące”.
Choć ich praca jest zachęcająca, przed nami jeszcze długa droga, zanim proteza mowy Viventi i Cogana wkrótce trafi na półki sklepowe.
„Jesteśmy w punkcie, w którym nadal jest on znacznie wolniejszy niż mowa naturalna” – stwierdziła Viventi w niedawnym artykule na temat tej technologii Duke Magazine – „ale widać już trajektorię, po której możesz się tam dostać”.
Praca ta została wsparta grantami z Narodowych Instytutów Zdrowia (R01DC019498, UL1TR002553), Departamentu Obrony (W81XWH-21-0538), Fundacji Klingensteina-Simonsa oraz nagrodą za inkubator od Duke Institute for Brain Sciences.