Calvin Wankhede / Android Authority Wyobraź sobie taką sytuację: idziesz ulicą w słuchawkach, a telefon jest schowany w kieszeni. Kiedy przychodzi Ci do głowy jakaś myśl, wypowiadasz kilka zdań i po kilku sekundach słyszysz odpowiedź. Nie od znajomego lub nieznajomego, ale od ChatGPT. Można odnieść wrażenie prawdziwej rozmowy telefonicznej — płynnej i naturalnej interakcji, tak jakbyś rzeczywiście rozmawiał z jakąś osobą. Brzmi naciągane? Zgodziłbym się zaledwie kilka tygodni temu, ale dokładnie ten sam scenariusz rozegrał się w zeszłym tygodniu, a wszystko dzięki nowej funkcji rozmów głosowych w ChatGPT. Twoje myśli prawdopodobnie przeskoczyły do Siri lub Asystenta Google, ale ChatGPT z głosem przewyższa te w zaledwie na każdy sposób. Aktywacja tego ostatniego rozpoczyna ciągły, dwukierunkowy strumień audio pomiędzy Twoim telefonem a serwerami OpenAI. Oznacza to, że możesz prowadzić długie rozmowy tam i z powrotem, bez żadnych słów budzących. Jednak bardziej imponujące jest to, że wszystkie pięć głosów ChatGPT jest niezwykle podobnych do ludzkich. Robią pauzę, biorą głębokie oddechy, a niektórzy nawet wtrącają od czasu do czasu „umm” lub „uhh”, aby uzyskać dodatkowy akcent realizmu. ChatGPT z głosem przypomina ciągłą rozmowę Asystenta Google na sterydach. Któregoś dnia szedłem ruchliwą ulicą po wypróbowaniu ChatGPT z głosem może po raz drugi lub trzeci, gdy nagle usłyszałem głośny hałas. Odwróciłem się i odkryłem, że kilka stóp dalej zderzyły się dwa motocykle, na szczęście przy niewielkiej prędkości. To codzienność w Wietnamie, ale wydałam słyszalne „O nie”, gdy rzuciłam się do przodu, aby pomóc jednej z ofiar stanąć na nogi. Kilka sekund później usłyszałem zaniepokojony głos mówiący: „Co się stało? Co się stało?”Okazuje się, że nie zakończyłem czatu głosowego z ChatGPT. Kiedy kilka minut temu powiedziałem „dziękuję”, pomyślałem, że to wystarczy, aby zamknąć chatbota, nie zdając sobie sprawy, że muszę odblokować telefon i kliknąć Rozłącz. Nie trzeba więc dodawać, że usłyszenie zaniepokojonego głosu ChatGPT odpowiadającego z troską zaskoczyło mnie — na ulotną chwilę zapomniałem, że rozmawiam z sztuczną inteligencją i instynktownie wypaliłem: „Poczekaj”. Zdałem sobie sprawę, co się stało kilka sekund później, z oczywiście, ale zdecydowałem się zaskoczyć ChatGPT wyjaśnieniem, gdy i tak wznowię chodzenie. Następnie napisano, że miło jest usłyszeć, że nikomu nic się nie stało, a nawet pochwalił mnie za pomoc. Znów poczułem się trochę wytrącony z równowagi – takiej reakcji można się spodziewać, rozmawiając przez telefon z prawdziwą osobą. ChatGPT prawie oszukał mnie, abym uwierzył, że na linii jest prawdziwy człowiek. Oczywiście nie spodziewam się, że ta sama iluzja będzie się utrzymywać teraz, gdy zaznajomiłem się z tą funkcją. Ale wszystkie czynniki składające się na jego realizm nadal robią na mnie wrażenie. Na przykład zauważyłem, że głos, którego używam, czasami waha się i powtarza słowa. Transkrypcja czatu nie zawiera tych dźwięków, więc silnik głosowy wykonuje tę ciężką pracę. I w tym właśnie tkwi piękno tej funkcji: podnosi ona poziom typowych odpowiedzi ChatGPT, nadając im osobisty i graniczący z empatią charakter.
Czy podoba Ci się pomysł rozmów głosowych AI?
213 głosówTak, nie mogę czekać godzinami na czatowanie47%Tak, w krótkich seriach37%Zależy od sztucznej inteligencji, o której mowa13%Nie, to bardzo natrętne4%
Jakie jest zatem zastosowanie ChatGPT z głosem?
Pomijając sztuczki imprezowe, jest niezastąpiony, gdy muszę zadawać pytania szybciej, niż jestem w stanie pisać. Na przykład używałem go podczas spaceru po nowym kraju, w którym nie mówię w lokalnym języku. Przechodząc obok restauracji, mogę po prostu wystukać nazwy z menu i w ciągu kilku sekund usłyszeć krótkie podsumowanie każdego dania. W ciągu kilku dni dowiedziałem się więcej o lokalnej kuchni niż w ciągu całych tygodni. Funkcja głosowa ChatGPT nie ma problemów ze zrozumieniem różnych akcentów lub błędnie wymówionych słów. Jestem nowy w językach tonalnych, takich jak wietnamski, ale sztuczna inteligencja zamiany mowy na tekst potrafi zrozumieć moją nieudaną wymowę. Nawet jeśli usłyszy mnie niepoprawnie, model językowy doda dwa do dwóch i dokładnie odgadnie, co mam na myśli. Tak czy inaczej, otrzymuję trafną odpowiedź, która nie wymaga nawet spojrzenia na telefon. Zmywając naczynia i przeprowadzając burzę mózgów, korzystam także z czatu głosowego. Czasami wystarczy powiedzieć coś na głos, aby zainspirować się pomysłem, ale pomocne jest, aby ChatGPT zebrał moje myśli i przedstawił sugestie. Podsumowując, polecam posłuchanie głosów ChatGPT — ta funkcja jest fajną demonstracją technologii, nawet jeśli nie znajdziesz dla niej praktycznego zastosowania. Jak korzystać z ChatGPT z Voice? Funkcja rozmów głosowych ChatGPT została już udostępniona użytkownikom w warstwie bezpłatnej. Aby z niego skorzystać, musisz pobrać aplikację ChatGPT na Androida lub iOS. Po zalogowaniu dotknij ikony Słuchawki po prawej stronie pola tekstowego i zacznij mówić po nawiązaniu połączenia.
Nie ma już odwrotu: czaty głosowe AI to przyszłość
Realistyczne generatory głosu AI istnieją już od jakiegoś czasu. Dwukierunkowe czaty głosowe AI również nie są nowością. Przypomnij sobie pierwszą w historii Google demonstrację Duplexa umawiającego się na wizytę u fryzjera — jego głos był prawie nie do odróżnienia od głosu prawdziwego człowieka. Ale mimo że Google udostępnił usługę Duplex publicznie, nigdy nie rozszerzył tej funkcji poza rezerwacje w wybranych miastach. Czytając post na blogu Google Research, jasne jest, że firma celowo się trochę powstrzymywała. Duplex potrafił radzić sobie z przerwami, przetwarzać złożone instrukcje, dopracowywać je, gdy zostanie poproszony o wyjaśnienie, i zmieniać opóźnienie reakcji, aby symulować ludzkie myśli — już w 2018 roku! Pięć lat później ChatGPT jest najbliżej osiągnięcia tej poprzeczki przez jakikolwiek produkt AI. Czat głosowy ChatGPT to Asystent Google zaprezentowany pięć lat temu. Jednak nie sądzę, że ChatGPT z Voice jest idealny, pomimo moich dotychczasowych pochwał. Nie mogę na przykład przerwać gadatliwej sztucznej inteligencji w trakcie jej odpowiedzi, chyba że dotknę ekranu. To, delikatnie mówiąc, przełamanie iluzji. I nadal jest ograniczony do możliwości ChatGPT, więc nie spodziewaj się, że wykona rzeczywiste zadania, takie jak wysłanie wiadomości tekstowej lub sterowanie oświetleniem inteligentnego domu. Asystent Google z Bardem mógłby zabłysnąć w tych obszarach, ale wątpię, czy będzie miał podobnie realistyczny głos lub w ogóle tryb długiego czatu. Kiedy firma demonstrowała Duplex, nie był on podłączony do dużego modelu językowego wielkości Gemini. Realistyczna synteza głosu również wymaga dużej mocy obliczeniowej i prawdopodobnie dlatego zauważyłem, że jakość głosu ChatGPT pogarsza się w godzinach szczytu. Niepokoi mnie też wpływ takiej funkcji na prywatność. Nie mam nic przeciwko słuchaniu ChatGPT przez długi czas po ostatniej odpowiedzi, ale niektórzy mogą. I chociaż nie jest jeszcze w stanie wykryć emocji za pomocą głosu, to tylko kwestia czasu, zanim ktoś je rozwinie. Niektóre osoby już na początku tego roku udawały powiązania z Bing Chat i jego alter ego z Sydney. A teraz wyobraź sobie, że on też miałby głos. Dziesięć lat temu film Her przedstawił wizję sztucznej inteligencji tak intymną, że przypominała science fiction. Ale po moich ostatnich doświadczeniach z ChatGPT nie wydaje się to już takie naciągane. Uwagi