Słuchawki z redukcją szumów bardzo dobrze radzą sobie z tworzeniem pustej przestrzeni dźwiękowej. Jednak wymazanie pewnych dźwięków z otoczenia użytkownika nadal stanowi wyzwanie dla badaczy. Na przykład najnowsza edycja słuchawek AirPods Pro firmy Apple automatycznie dostosowuje poziom dźwięku do użytkownika — na przykład wykrywając, kiedy prowadzi rozmowę — ale użytkownik ma niewielką kontrolę nad tym, kogo i kiedy ma słuchać.
Zespół Uniwersytetu Waszyngtońskiego opracował system sztucznej inteligencji, który pozwala użytkownikowi noszącemu słuchawki patrzeć na mówiącą osobę przez trzy do pięciu sekund, aby ją „zarejestrować”. System o nazwie „Target Speech Hearing” anuluje następnie wszystkie inne dźwięki z otoczenia i odtwarza w czasie rzeczywistym tylko głos zarejestrowanego mówcy, nawet jeśli słuchacz porusza się w hałaśliwych miejscach i nie jest już zwrócony twarzą do mówiącego.
Zespół przedstawił swoje ustalenia 14 maja w Honolulu podczas konferencji ACM CHI na temat czynników ludzkich w systemach komputerowych. Kod urządzenia sprawdzającego koncepcję jest dostępny dla innych osób, na których można budować. System nie jest dostępny komercyjnie.
„Obecnie myślimy o sztucznej inteligencji jako o internetowych chatbotach, które odpowiadają na pytania” – powiedział starszy autor Shyam Gollakota, profesor UW w Szkole Informatyki i Inżynierii im. Paula G. Allena. „Ale w tym projekcie opracowujemy sztuczną inteligencję, aby modyfikować percepcję słuchową każdej osoby noszącej słuchawki, biorąc pod uwagę jej preferencje. Dzięki naszym urządzeniom możesz teraz wyraźnie słyszeć pojedynczego mówcę, nawet jeśli znajdujesz się w hałaśliwym otoczeniu, gdzie rozmawia wiele innych osób”.
Aby skorzystać z systemu, osoba nosząca gotowe słuchawki z mikrofonem naciska przycisk, kierując głowę w stronę mówiącej osoby. Fale dźwiękowe głosu tego mówcy powinny wówczas dotrzeć jednocześnie do mikrofonów po obu stronach zestawu słuchawkowego; margines błędu wynosi 16 stopni. Słuchawki wysyłają ten sygnał do wbudowanego komputera, gdzie opracowane przez zespół oprogramowanie do uczenia maszynowego uczy się wzorców wokalnych żądanego mówcy. System wychwytuje głos mówiącego i odtwarza go słuchaczowi, nawet gdy para się porusza. Zdolność systemu do skupiania się na zarejestrowanym głosie poprawia się w miarę kontynuowania mówienia przez mówiącego, dzięki czemu system otrzymuje więcej danych szkoleniowych.
Zespół przetestował swój system na 21 osobach, które oceniły czystość głosu zarejestrowanego mówcy prawie dwukrotnie wyżej niż średnio niefiltrowanego dźwięku.
Praca ta opiera się na wcześniejszych badaniach zespołu dotyczących „słyszenia semantycznego”, które pozwoliły użytkownikom wybrać określone klasy dźwięków – takie jak ptaki lub głosy – które chcieli usłyszeć, i anulować inne dźwięki w otoczeniu.
Obecnie system TSH może zarejestrować tylko jednego mówcę na raz i jest w stanie zarejestrować mówcę tylko wtedy, gdy z tego samego kierunku, co głos docelowego mówcy, nie dochodzi inny głośny głos. Jeśli użytkownik nie jest zadowolony z jakości dźwięku, może przeprowadzić ponowną rejestrację głośnika, aby poprawić jego klarowność.
Zespół pracuje nad rozszerzeniem systemu na słuchawki douszne i aparaty słuchowe w przyszłości.
Dodatkowymi współautorami artykułu byli Bandhav Veluri, Malek Itani i Tuochao Chen, doktoranci UW w Allen School oraz Takuya Yoshioka, dyrektor ds. badań w AssemblyAI. Badania te zostały sfinansowane przez nagrodę Moore Inventor Fellow, Thomas J. Cabel Endowed Professorship oraz fundusz UW CoMotion Innovation Gap Fund.