Calvin Wankhede / Android AuthorityGdy w połowie 2023 roku Google ogłosiło modele językowe PaLM 2 i Gemini, gigant wyszukiwarek podkreślił, że jego sztuczna inteligencja jest multimodalna. Oznaczało to, że mógł generować tekst, obrazy, dźwięk, a nawet wideo. Tradycyjnie modele językowe, takie jak GPT-4 ChatGPT, celowały jedynie w odtwarzaniu tekstu. Najnowszy model Google VideoPoet podważa jednak tę koncepcję, ponieważ może konwertować podpowiedzi tekstowe na filmy generowane przez sztuczną inteligencję. Dzięki VideoPoet Google stał się pierwszym gigantem technologicznym, który ogłosił sztuczną inteligencję zdolną do generowania filmów. W odróżnieniu od wcześniejszych prób Google twierdzi, że może także generować sceny z dużą ilością ruchu, a nie tylko z subtelnymi ruchami. Na czym więc polega magia VideoPoet i co potrafi? Oto wszystko, co musisz wiedzieć.
Co to jest Google VideoPoet?
Google VideoPoet to eksperymentalny model wielojęzyczny, który może generować filmy na podstawie podpowiedzi tekstowych. Możesz opisać fikcyjną scenę, nawet tak absurdalną jak „Kot-robot jedzący spaghetti” i przygotować film do obejrzenia w ciągu kilku sekund. Jeśli kiedykolwiek korzystałeś z generatora obrazów AI, takiego jak Midjourney lub DALL-E 3, wiesz już, czego się spodziewać po VideoPoet. Podobnie jak generatory obrazów AI, VideoPoet może również edytować istniejącą treść wideo. Możesz na przykład wyciąć część klatki wideo i poprosić sztuczną inteligencję, aby zamiast tego wypełniła lukę czymś z Twojej wyobraźni. Google zainwestował w start-upy takie jak Runway pracujące nad generowaniem wideo AI, ale VideoPoet jest dostępny dzięki uprzejmości wewnętrznego działu firmy starania. W artykule technicznym VideoPoet wzięło udział aż 31 badaczy z Google Research.
Jak działa Google VideoPoet?
We wspomnianym artykule badacze Google wyjaśnili, że VideoPoet różni się od konwencjonalnych generatorów zamiany tekstu na obraz i tekstu na wideo. Na przykład w przeciwieństwie do Midjourney VideoPoet nie wykorzystuje modelu dyfuzji do generowania obrazów z losowego szumu. To podejście sprawdza się w przypadku pojedynczych obrazów, ale nie sprawdza się w przypadku filmów, w których model musi uwzględniać ruch i spójność w czasie. W swojej istocie Google VideoPoet jest modelem opartym na dużym języku. Oznacza to, że opiera się na tej samej technologii, z której korzystają ChatGPT i Google Bard, która potrafi przewidzieć, jak słowa pasują do siebie, tworząc zdania. VideoPoet idzie o krok dalej, ponieważ jest w stanie przewidzieć fragmenty wideo i audio, a nie tylko tekst. VideoPoet to duży model językowy, który zamiast tekstu generuje filmy. VideoPoet wymagał specjalistycznego procesu wstępnego szkolenia, który obejmował tłumaczenie obrazów, klatek wideo i klipów audio na wspólny język, zwany tokenami. Mówiąc prościej, model nauczył się interpretować różne modalności na podstawie danych uczących. Google twierdzi, że do szkolenia VideoPoeta wykorzystał miliard par obraz-tekst i 270 milionów publicznych próbek wideo. Ostatecznie VideoPoet stał się zdolny do przewidywania tokenów wideo w taki sam sposób, w jaki tradycyjny model LLM przewidywałby tokeny tekstowe. VideoPoet ma solidne podstawy dzięki przeszkoleniu, które pozwala mu wykonywać zadania wykraczające poza generowanie tekstu na wideo. Może na przykład zastosować style do istniejących filmów, edytować, np. dodawać efekty tła, zmieniać wygląd istniejącego wideo za pomocą filtrów i zmieniać ruch poruszającego się obiektu w istniejącym filmie. Google zademonstrował to drugie z tańczącym szopem w różnych stylach.
VideoPoet a konkurencyjne generatory wideo AI: jaka jest różnica?
Edgar Cervantes / Android Authority Usługa VideoPoet firmy Google różni się od większości swoich rywali, którzy wykorzystują modele dyfuzji do przekształcania tekstu w filmy. Jednak nie jest to dokładnie pierwszy przypadek – w zeszłym roku Phenaki zaprezentowała mniejsza liczba badaczy Google Brain. Podobnie projekt Meta Make-A-Video wywołał falę w społeczności sztucznej inteligencji, umożliwiając generowanie różnorodnych filmów bez wcześniejszego szkolenia w zakresie par wideo-tekst. Jednak żaden z modeli nie został udostępniony publicznie. Biorąc pod uwagę, że nie mamy dostępu do żadnych modeli generujących wideo, możemy polegać jedynie na informacjach o VideoPoet, które dostarczył Google. Mając to na uwadze, autorzy artykułu twierdzą, że „w wielu przypadkach nawet obecnie wiodące modele albo generują niewielki ruch, albo przy większych ruchach wykazują zauważalne artefakty”. Z kolei VideoPoet radzi sobie z większym ruchem. VideoPoet może generować dłuższe filmy i obsługiwać ruch z większą gracją niż konkurencja. Google twierdzi też, że VideoPoet potrafi generować dłuższe filmy niż konkurencja. Chociaż ogranicza się do początkowej serii dwusekundowych filmów, może zachować kontekst w ciągu ośmiu do dziesięciu sekund filmu. To może nie wydawać się dużo, ale robi wrażenie, biorąc pod uwagę, jak bardzo scena może się zmienić w tym okresie. Powiedziawszy to, przykładowe filmy Google zawierają tylko kilkadziesiąt klatek, co znacznie odbiega od wzorcowej szybkości 24 lub 30 klatek na sekundę stosowanej w profesjonalnych filmach lub filmach.
Dostępność Google VideoPoet: czy jest bezpłatna?
Chociaż firma Google opublikowała dziesiątki przykładowych filmów demonstrujących mocne strony VideoPoet, nie ogłosiła publicznego wdrożenia. Innymi słowy, nie wiemy, kiedy i jeśli w ogóle będziemy mogli korzystać z VideoPoeta. Google nie ogłosił jeszcze produktu ani daty premiery VideoPoet. Jeśli chodzi o ceny, być może będziemy musieli skorzystać z podpowiedzi generatorów obrazów AI, takich jak Midjourney, które są dostępne tylko w ramach subskrypcji. Rzeczywiście obrazy i filmy generowane przez sztuczną inteligencję są kosztowne obliczeniowo, więc udostępnienie dostępu wszystkim może nie być wykonalne, nawet dla Google. Będziemy musieli poczekać na przełomową wersję, taką jak ChatGPT OpenAI, która wymusi przewagę giganta wyszukiwania. Do tego czasu musimy po prostu poczekać i obserwować sytuację z boku. Uwagi