Inteligentny głośnik zmieniający kształt umożliwia użytkownikom wyciszenie różnych obszarów pomieszczenia

digitateam September 21, 2023

Podczas wirtualnych spotkań łatwo jest uniemożliwić ludziom rozmawianie ze sobą. Ktoś po prostu wycisza. Jednak w większości przypadków ta umiejętność nie przekłada się łatwo na nagrywanie osobistych spotkań. W tętniącej życiem kawiarni nie ma przycisków, które wyciszyłyby stolik obok.

Możliwość lokalizowania i kontrolowania dźwięku – na przykład izolowania jednej osoby mówiącej od określonego miejsca w zatłoczonym pomieszczeniu – stanowiła wyzwanie dla badaczy, zwłaszcza bez wizualnych wskazówek z kamer.

Zespół kierowany przez naukowców z Uniwersytetu Waszyngtońskiego opracował zmieniający kształt inteligentny głośnik, który wykorzystuje samorozmieszczające się mikrofony do dzielenia pomieszczeń na strefy mowy i śledzenia pozycji poszczególnych głośników. Dzięki opracowanym przez zespół algorytmom głębokiego uczenia system pozwala użytkownikom wyciszyć określone obszary lub oddzielić jednoczesne rozmowy, nawet jeśli dwie sąsiadujące ze sobą osoby mają podobne głosy. Podobnie jak we flocie Roombasów, każdy o średnicy około cala, mikrofony automatycznie wychodzą ze stacji ładującej, a następnie wracają do niej. Umożliwia to przenoszenie systemu między środowiskami i automatyczną konfigurację. Na przykład podczas spotkania w sali konferencyjnej taki system można zastosować zamiast mikrofonu centralnego, co umożliwi lepszą kontrolę dźwięku w pomieszczeniu.

Zespół opublikował swoje ustalenia 21 września w czasopiśmie Nature Communications.

„Jeśli zamknę oczy i w pomieszczeniu rozmawia 10 osób, nie mam pojęcia, kto co mówi i gdzie dokładnie się znajdują. Ludzki mózg jest niezwykle trudny do przetworzenia. Do tej pory było to również trudne dla technologii” – powiedział współautor Malek Itani, doktorant UW w Szkole Informatyki i Inżynierii im. Paula G. Allena. „Po raz pierwszy, używając tego, co nazywamy robotycznym «rojem akustycznym», jesteśmy w stanie śledzić pozycje wielu osób rozmawiających w pomieszczeniu i oddzielać ich mowę”.

Poprzednie badania nad rojami robotów wymagały użycia kamer umieszczonych nad głową lub wbudowanych w urządzenie, projektorów lub specjalnych powierzchni. System zespołu UW jako pierwszy precyzyjnie rozprowadza rój robotów wykorzystując wyłącznie dźwięk.

Prototyp zespołu składa się z siedmiu małych robotów, które rozmieszczone są na stołach o różnych rozmiarach. Kiedy odchodzą od ładowarki, każdy robot emituje dźwięk o wysokiej częstotliwości, przypominający nawigację nietoperza. Wykorzystuje tę częstotliwość i inne czujniki do omijania przeszkód i poruszania się bez spadania ze stołu. Automatyczne rozmieszczanie umożliwia robotom ustawienie się z maksymalną dokładnością, co pozwala na lepszą kontrolę dźwięku, niż gdyby ustawiała je osoba. Roboty rozmieszczają się jak najdalej od siebie, ponieważ większe odległości ułatwiają różnicowanie i lokalizowanie mówiących osób. Dzisiejsze inteligentne głośniki konsumenckie mają wiele mikrofonów, ale zgrupowane w tym samym urządzeniu są zbyt blisko, aby umożliwić wyciszenie i aktywne strefy tego systemu.

„Jeśli jeden mikrofon będzie oddalony ode mnie o stopę, a drugi o dwie stopy ode mnie, mój głos dotrze najpierw do mikrofonu znajdującego się o stopę ode mnie. Jeśli ktoś inny znajdzie się bliżej mikrofonu oddalonego o dwie stopy, jego głos dotrze tam najpierw” – powiedział współautor Tuochao Chen, doktorant UW w Allen School. „Opracowaliśmy sieci neuronowe, które wykorzystują opóźnione w czasie sygnały do oddzielania wypowiedzi poszczególnych osób i śledzenia ich pozycji w przestrzeni. Można więc ustawić cztery osoby prowadzące dwie rozmowy i wyizolować dowolny z czterech głosów oraz zlokalizować każdy z nich w pokój.”

Zespół przetestował roboty w biurach, salonach i kuchniach w grupach składających się z trzech do pięciu osób, które mówiły. We wszystkich tych środowiskach system był w stanie rozpoznać różne głosy w odległości 50 centymetrów od siebie w 90% przypadków, bez wcześniejszej informacji o liczbie osób mówiących. System był w stanie przetworzyć trzy sekundy dźwięku średnio w 1,82 sekundy – wystarczająco szybko, aby można było przesyłać strumieniowo na żywo, choć nieco za długo, aby można było korzystać z komunikacji w czasie rzeczywistym, takiej jak rozmowy wideo.

Naukowcy twierdzą, że w miarę postępu technologii w inteligentnych domach można będzie wdrażać roje akustyczne, aby lepiej rozróżniać osoby rozmawiające przez inteligentne głośniki. Może to potencjalnie pozwolić na przykład na głosowe sterowanie telewizorem tylko osobom siedzącym na kanapie w „strefie aktywnej”.

Naukowcy planują docelowo stworzyć roboty mikrofonowe, które będą mogły poruszać się po pokojach, zamiast ograniczać się do stołów. Zespół bada również, czy głośniki mogą emitować dźwięki, które pozwalają na utworzenie w świecie rzeczywistym stref wyciszenia i aktywnych, dzięki czemu osoby znajdujące się w różnych częściach pomieszczenia będą mogły słyszeć inny dźwięk. Obecne badanie to kolejny krok w kierunku technologii science fiction, takich jak „stożek ciszy” w „Get Smart” i „Dune” – piszą autorzy.

Oczywiście każda technologia, która wywołuje porównanie do fikcyjnych narzędzi szpiegowskich, rodzi pytania o prywatność. Badacze zdają sobie sprawę z możliwości niewłaściwego użycia, dlatego wprowadzili zabezpieczenia przed takimi sytuacjami: mikrofony nawigują za pomocą dźwięku, a nie wbudowanej kamery, jak w przypadku innych podobnych systemów. Roboty są łatwo widoczne, a ich światła migają, gdy są aktywne. Zamiast przetwarzać dźwięk w chmurze, jak robi to większość inteligentnych głośników, roje akustyczne przetwarzają cały dźwięk lokalnie, aby ograniczyć prywatność. I chociaż niektórzy ludzie mogą w pierwszej chwili pomyśleć o inwigilacji, system może zostać wykorzystany do odwrotnych celów – twierdzi zespół.

„Ma to potencjał, aby faktycznie zwiększyć prywatność, wykraczając poza to, na co pozwalają obecne inteligentne głośniki” – powiedział Itani. „Mogę powiedzieć: «Nie nagrywaj niczego przy moim biurku», a nasz system utworzy wokół mnie bańkę w odległości 3 stóp. Nic w tej bańce nie zostanie nagrane. Lub jeśli dwie grupy rozmawiają obok siebie, a jedna z nich rozmawia prywatną rozmowę, podczas gdy druga grupa nagrywa, jedna rozmowa może znajdować się w strefie wyciszenia i pozostanie prywatna.”

Click to rate this post!

[Total: 0 Average: 0]

science

Z ostatniej chwili

Inteligentny głośnik zmieniający kształt umożliwia użytkownikom wyciszenie różnych obszarów pomieszczenia