TL; DR Google niedawno uruchomiło i zademonstrowało Gemini, swój najnowszy model obsługujący wiele języków. Jednak demonstracja Google Gemini nie odbywa się w czasie rzeczywistym i wymaga pewnej swobody w kilku sekwencjach demonstracyjnych. W czasie rzeczywistym Google Gemini przetwarza obrazy i tekst pisany, a następnie generuje tekst pisany. Niedawno firma Google udostępniła publicznie Gemini, swój najnowszy model obsługujący wiele języków. Gemini konkuruje z takimi urządzeniami jak GPT-4 OpenAI i w nadchodzących latach będzie zasilać większość inteligentnych rozwiązań AI Google. Firma Google przygotowała fantastyczną, praktyczną demonstrację prezentującą możliwości Gemini i imponująca była płynność działania modelu sztucznej inteligencji. To jednak tylko część historii, ponieważ obecnie wyszło na jaw, że demonstracja nie była dokładnie wersją demonstracyjną Gemini wyświetlaną w czasie rzeczywistym. Najpierw przyjrzyjmy się praktycznemu filmowi Google dotyczącemu Gemini: Robi wrażenie, prawda? Gemini bez trudu i bezproblemowo rozumiał język mówiony i obrazy, nawet gdy obraz zmieniał się dynamicznie (jak kolorowanie kaczki). Gemini reagowało tak szybko, że nie wydawało się, że demonstracja była interakcją ze sztuczną inteligencją; mogła to być osoba! Jak się okazuje, część filmu nie jest prawdziwa. Interakcja AI nie zachodzi w sposób, w jaki Google to pozornie pokazał. Jak wskazuje Bloomberg, opis filmu na YouTube zawiera następujące zastrzeżenie:
Na potrzeby tej wersji demonstracyjnej zmniejszono opóźnienia, a dane wyjściowe Gemini skrócono w celu zapewnienia zwięzłości.
Chociaż wskazuje to, że reakcja modelu sztucznej inteligencji zajęłaby więcej czasu, Bloomberg zauważa, że demonstracja nie została przeprowadzona ani w czasie rzeczywistym, ani za pomocą głosu. Rzecznik Google powiedział, że powstało to poprzez „wykorzystanie klatek obrazu z materiału filmowego i podpowiedzi tekstowych”. Jak się okazuje, sposób działania Gemini w znacznie większym stopniu przypomina sztuczną inteligencję, niż to przedstawia wersja demonstracyjna. Wiceprezes Google ds. badań i współprzewodniczący Gemini zademonstrowano Rzeczywiste działanie Bliźniąt.
Naprawdę cieszę się, że widzę zainteresowanie naszym filmem „Praktyczne zajęcia z Bliźniakami”. Wczoraj na naszym blogu programistów omówiliśmy, w jaki sposób Gemini został wykorzystany do jego stworzenia. https://t.co/50gjMkaVc0 Daliśmy sekwencje Bliźniąt o różnych modalnościach — w tym przypadku obraz i tekst — i poprosiliśmy o odpowiedź… pic.twitter.com/Beba5M5dHP
Drugi film pokazuje, jak Gemini posiada początkowy zestaw instrukcji, który zwraca jego uwagę na sekwencję obiektów na obrazie. Następnie do Gemini przesyłany jest nieruchomy obraz wraz z wprowadzonym tekstem. Po uruchomieniu modelu Gemini potrzebuje około czterech do pięciu sekund na wysłanie wiadomości tekstowej.
Film demonstracyjny GoogleRzeczywiste demoFilm demonstracyjny GoogleRzeczywiste demo Firma nigdy nie wspomniała, że jest to demonstracja na żywo, a nawet zamieściła zastrzeżenie dotyczące opóźnień i zwięzłości. Mimo to jasne jest, że Google pozwolił sobie na swobodę twórczą, tworząc wersję demonstracyjną. Firmy edytują swoje wersje demonstracyjne częściej, niż myślisz, a demonstracje na żywo przed publicznością są jedynymi, które należy brać za dobrą monetę. Można jednak argumentować, że demonstracja Google dla Gemini była nieco zbyt kreatywna i nie odzwierciedlała dokładnie działania Gemini. Przypomina to sposób, w jaki producenci OEM telefonów pokazują na scenie próbki aparatów oraz zdjęcia i filmy „kręcone” i prawda wychodzi na jaw, że aby uzyskać te wyniki, potrzebny był dodatkowy sprzęt i talent. Wyniki, jakie uzyskałby przeciętny użytkownik, byłyby zupełnie inne, a większość z nas nauczyła się ignorować próbki aparatów, zwłaszcza te, które prezentuje firma. Uwagi