Dall-E 2, Midjourney, Stable Diffusion: Boom w sztuce dzięki algorytmom uczenia maszynowego dopiero się zaczął. Skorzystaliśmy również z okazji, aby rzucić modelom kilka słów. Oto wyniki.
Fakt, że fotorealistyczne obrazy można tworzyć przy odrobinie uczenia maszynowego, nie jest taki nowy. Thispersondoesnotexist.com pokazał kilka lat temu, do czego zdolna jest sztuczna inteligencja. Minęło kilka lat rozwoju, w wyniku czego sztuczna inteligencja może teraz tworzyć nie tylko twarze, ale prawie wszystko.
Wypróbowaliśmy kilka narzędzi do tworzenia grafiki AI. Jak działają i dlaczego są obecnie przedmiotem kontrowersji, możecie dowiedzieć się w filmie. Niektóre z naszych wyników można zobaczyć na kolejnych stronach.
Dlaczego ten antropomorficzny banan przeszedł przez ulicę? Oczywiście, żeby dobrze wyglądać w okularach przeciwsłonecznych. Ale nie ślizgaj się na nim!
Ten motyw był jednym z pierwszych, które wypróbowaliśmy. Nadal są problemy z twarzami, proste zęby często wyglądają brzydko ze Stable Diffusion. Z drugiej strony pozytywnie zaskoczył nas fotorealistyczny wygląd drugiego obrazu.
Po co pozwalać dwóm psom grać w pokera, skoro przy stole jest miejsce dla dwóch orków.
Wydaje się jednak, że Stable Diffusion ma pewne problemy z motywem orki. Przynajmniej nie możemy tak naprawdę stwierdzić na podstawie zdjęć, czy ta dwójka naprawdę siedzi we właściwy sposób.
Nasze testy pokazały, jak dobrze Stable Diffusion radzi sobie ze zdjęciami jedzenia. Prawie nie widzieliśmy żadnych zdjęć, które w jakiś sposób nie wyglądały apetycznie. Można by pomyśleć, że internet jest pełen odpowiednich materiałów szkoleniowych. Czasami jednak nie powinieneś patrzeć tak uważnie i zastanawiać się, na które składniki patrzysz, ponieważ czasami nie są one już tak naprawdę rozpoznawalne.
Trzy zdjęcia ośmiornic i bananów. Właściwie chcieliśmy zawstydzić zdjęcie jednego z naszych śliskich przyjaciół gryzących banana, ale tak się nie stało z żadnym ze zdjęć. Zamiast tego wysłaliśmy ich oboje na kolację przy świecach na drugim zdjęciu. Cóż, przynajmniej tak myślimy, że jest to przedstawione na obrazku.
Która seria jest tu przedstawiona? Dobre pytanie! Prośba Stable Diffusion o zdjęcie, które mogłoby wyglądać jak plan serialu z lat 90., jest jak najbardziej na miejscu. Nie powinieneś jednak mieć własnego mieszkania założonego przez sztuczną inteligencję.
Dzięki zastosowaniu dyfuzorów Stable Diffusion można oszukać do tworzenia obrazów w stylu, do którego nie był początkowo szkolony. Na przykład jeden użytkownik wyszkolił „Mo Di Diffusion” na podstawie animowanych komputerowo filmów Disneya. Dostajemy więc przedsmak tego, jak mógłby wyglądać animowany serial Disneya oparty na Tomb Raider w 3D. To mała wskazówka ze słupkiem ogrodzeniowym, Disney, Square Enix dopiero niedawno sprzedał licencję Tomb Raider za tanie pieniądze.
Dla miłośników słodyczy: w tym motywie staraliśmy się, aby Stable Diffusion stworzyło scenariusz, który był jak najbardziej nierealistyczny. Dla obrazu w środku użyliśmy funkcji „img2img”. W innym programie do edycji obrazu narysowaliśmy zgrubne kontury wafla i nadzienia, a następnie Stable Diffusion wypełniło ten szablon życiem. Na szczęście wszystkie wygenerowane obrazy z tym tematem wyglądają trochę nierealistycznie.
Trzy zdjęcia szczęśliwych psów. Jednak na wszystkich zdjęciach jest pewien klimat Uncanny Valley.
Jak właściwie niedźwiedź polarny trzyma filiżankę kawy? Oczywiście ludzką ręką. Oprócz drugiego zdjęcia wyniki są przekonujące na pierwszy rzut oka. Jednak na drugi rzut oka widać lekkie rozmycie wokół nosa niedźwiedzia.
Już sam termin “fotografie dinozaurów” utrudnia sprawę, wszak nie dostaliśmy wtedy zbyt wielu fotokartek z Pangei. To sprawia, że AI tym bardziej utrudnia zakładanie okularów przeciwsłonecznych na te stworzenia, które prawie nie zostały sfotografowane. W końcu: Dinozaur po lewej wydaje się lubić okulary, nawet jeśli są one oczywiście mało przydatne.
Te roboty obserwują zachód słońca z pola. Z wyjątkiem robota na drugim zdjęciu, na jego planecie zderzają się dwa słońca. Takie niekonsekwencje pod względem realizmu są częstsze w Stable Diffusion.
Po co budować domek z piernika, skoro można zbudować całe miasto z piernika? Jednak żadne ze zdjęć nie okazało się naprawdę trójwymiarowe, a Stable Diffusion nie wydaje się przyzwyczajone do używania lukru.
Częsty problem na zdjęciach: jeśli obiekty są wizualnie zbyt blisko siebie, mogą dość łatwo się ze sobą zlewać. Na wielu stworzonych zdjęciach pingwiny są połączone z gitarami, jak w przykładzie po prawej stronie.
Dużym problemem związanym ze sztuką AI jest to, że można łatwo naśladować styl innych artystów. Na przykład graffiti po lewej stronie mogło zostać stworzone przy użyciu szablonu, takiego jak ten używany przez ulicznego artystę Banksy’ego. Tylko ta praca generowana przez sztuczną inteligencję nie ma żadnego sensu. Rzeczywiście, obraz po prawej wygląda jak dzieło, które można znaleźć na ścianie w Berlinie.
Widok rachunku za prąd przyprawia tych trzech panów o ból głowy. Naszym zdaniem zmarszczka została zastosowana na tych obrazach trochę zbyt swobodnie.
Wszystkie te starsze panie trafiły w dziesiątkę. A zdjęcia wyglądają nawet w połowie naturalnie. Możesz pogratulować dwa razy!
Tak zawsze budowałem swoje domy w The Sims: z wieloma basenami bez drabinek iz balkonami bez poręczy, bo znowu zabrakło pieniędzy. Pomijając fakt, że perspektywa na pierwszym obrazku nie ma sensu, zdjęcia dwa i trzy pokazują domy tak, jak można je znaleźć w grze Sims.
Kilka razy na tej liście mieliśmy „zdjęcia zwierząt i rzeczy, które noszą okulary”. Również z tym motywem w generowanych obrazach było wiele zdjęć, na których wygenerowano niewłaściwą liczbę oczu, kilka par okularów lub jedno i drugie.
Model był tak nieobeznany z koncepcją dinozaurów grających na instrumentach jazzowych, że zdjęcia nie działały w żadnym przykładzie. Jako kolorowy abstrakcyjny obraz olejny „Dinosaur Jazz Band” robi całkiem różnicę. W przypadku pierwszego obrazu ponownie użyliśmy „img2img” i dostarczyliśmy szkic stabilnej dyfuzji, który trzeba było tylko wypełnić.
Te leniwce postanowiły napić się zimnego piwa po pracy. Ale pospiesz się teraz, zanim się zestarzeje!
Wielu używa sztucznej inteligencji do tworzenia zdjęć profilowych. Te portrety pokazują, dlaczego: jeśli sztuczna inteligencja jest dostosowana do twojego wyglądu, w mgnieniu oka można stworzyć piękne zdjęcia. Ale to samo dotyczy tutaj: sztuczna inteligencja nie może nadążyć za znacznie większą liczbą kreatywnych próśb, więc grafik, któremu ufasz, może to zrobić.
Motyw, z którym Stable Diffusion miało spore problemy. Najwyraźniej koncepcja zwierząt na deskach surfingowych nie jest zbyt powszechna. Przynajmniej większość zwierząt (jak jeż na drugim zdjęciu) często nie miała deski surfingowej.
Przy tym motywie wykorzystaliśmy zarówno in-, jak i outpainting. Są to metody wykorzystujące stabilną dyfuzję do regeneracji niektórych obszarów wewnątrz lub na zewnątrz obrazu. W oryginale obraz był znacznie węższy, zatrzymywał się tuż obok robota po lewej stronie. Poza tym zamiast telefonu był jeszcze jeden element wyposażenia, który – podobnie jak model telefonu po prawej – nie miał sensu.
Wreszcie mamy odpowiedź na pytanie, jak wyglądałaby jego sztuka, gdyby Leonardo da Vinci urodził się jako pingwin. Mimo że w Stable Diffusion dodaliśmy „podobnego do człowieka witruwiańskiego”, sztuczna inteligencja mogła coś z tym zrobić tylko w ograniczonym zakresie.
Jak będziemy żyć za 1000 lat? Gdyby znajdował się pod wodą w szklanej kopule, mielibyśmy co najmniej trzy szkice tego, jak mogłoby to wyglądać.
Z prośbą o „stos naleśników” pozostawiliśmy jedno pytanie otwarte: ile syropu wystarczy? Naleśniki zawsze wyglądają na jadalne.