Testowałem najnowszy generator obrazu Gemini i oto wyniki

Testowałem najnowszy generator obrazu Gemini i oto wyniki

W listopadzie przetestowałem możliwości generowania obrazu w Google's Gemini, które było zasilane modelem Imagen 3. Podczas gdy mi się podobało, dość szybko napotkałem jego ograniczenia. Google niedawno wdrożył swojego następcę – Imagen 4 – i w ciągu ostatnich kilku tygodni przekładałem go w swoje kroki. Myślę, że nowa wersja jest zdecydowanie ulepszeniem, ponieważ niektóre z problemów z Imagen 3 już zniknęły. Ale wciąż pozostają pewne frustracje, co oznacza, że ​​nowa wersja nie jest tak dobra, jak bym chciał.

Jak często tworzysz obrazy z AI?

694 VOTESIT jest dla mnie codzienną rzeczą. 21%może raz w tygodniu. 21%kilka razy w miesiącu. 28%nigdy. 30%

Co się poprawiło?

Imagen 4 Cat and DogJakość wyprodukowanych obrazów ogólnie poprawiła się, chociaż poprawa nie jest ogromna. Imagen 3 był już ogólnie dobry w tworzeniu obrazów ludzi, zwierząt i krajobrazów, ale nowa wersja konsekwentnie produkuje ostrzejsze, bardziej szczegółowe obrazy. Gdy przychodzi do generowania zdjęć ludzi-co jest możliwe tylko w przypadku Bliźniaczki-miałem uporczywe problemy z ImageN 3, gdzie stworzyłaby kreskówkowe zdjęcia, nawet gdy nie prosiłem o ten konkretny styl. Poprawienie go do zmiany obrazu na coś bardziej realistycznego było często przegraną bitwą. Nie doświadczyłem tego z Imagen 4. Wszystkie obrazy ludzi, które generuje, wyglądają bardzo profesjonalnie – być może trochę za dużo, co dotyczymy później. Jedną z moich największych frustracji starszego modelu była ograniczona kontrola nad proporcjami. Często czułem się utknięty w kwadratowych obrazach 1: 1, które poważnie ograniczyły ich przypadek użycia. Nie mogłem ich użyć do publikacji online, a drukowanie ich pod kątem standardowej ramki zdjęcia nie było wykluczone. Podczas gdy Imagen 4 nadal domyślnie do stosunku 1: 1 mogę teraz po prostu monitować go do użycia innego, takiego jak 16: 9, 9:16 lub 4: 3. To jest funkcja, na którą czekałem, ponieważ sprawia, że ​​obrazy stworzone są znacznie bardziej wszechstronne i użyteczne. Imagen 4 również działa płynniej. Chociaż nie uważam, że jest to zauważalnie szybsze – chociaż podobno jest szybszy model – istnieje znacznie mniej błędów. W poprzedniej wersji Gemini czasami pokazywał komunikat o błędzie, mówiąc, że nie może stworzyć obrazu z nieznanego powodu. Nie otrzymałem żadnego z tych z Imagen 4. Po prostu działa.

Nadal wygląda trochę zbyt retuszu

Podczas gdy Imagen 4 wytwarza lepsze obrazy, jest bardziej niezawodne i pozwala na różne współczynniki kształtu, niektóre z problemów, które napotkałem podczas testowania jego poprzednika, są nadal obecne. Moim głównym problemem jest to, że obrazy często nie są tak realistyczne, jak chciałbym, szczególnie przy tworzeniu zbliżeń ludzi i zwierząt. Obrazy są zwykle bardzo nasycone, a wiele z nich ma wyraźny efekt bokeh, który profesjonalnie zaciera tło. Wszyscy wyglądają, jakby zostały zrobione przez fotografa z 15 -letnim doświadczeniem zamiast przeze mnie, po prostu wskazując aparat na mojego kota i naciskając migawkę. Wyglądają ładnie, ale „tryb zwyczajny” byłby fantastycznym dodatkiem – coś bardziej realistycznego, w którym oświetlenie nie jest idealne, a temat nie stawia jak model. Poprowadziłem Gemini do uczynienia obrazu bardziej realistycznego, usuwając efekt bokeh i ogólnie czyniąc go mniej idealnym. AI próbowała, ale po podpowiedzi trzech lub czterech razy na tym samym obrazie wydawało się, że osiągnął swój limit i powiedział, że nie może zrobić nic lepszego. Każdy nowy obraz, który wyprodukował, był nieco bardziej swobodny, ale wciąż był dość wypolerowany, wyraźnie wskazując, że był generowany AI. Widzicie, że na powyższych obrazach, od lewej do prawej. Pierwszy zawiera silny efekt bokeh, a mężczyzna ma bardzo wyraźną skórę, podczas gdy pozostałe dwa postępują wobec mężczyzny wyglądającego starszego i starszego, a także bardziej zmęczonego. Nawet zaczął trochę łysy na ostatnim obrazie. Nie chodzi mi o to, co naprawdę miałem na myśli, gdy zachęcam Bliźnięta do uczynienia obrazu bardziej realistycznym, chociaż wychodzi on bardziej swobodny.
Imagen 4 Sydnery Opera HouseImagen 4 Grand Canyon
Imagen 4 wykonuje znacznie lepszą robotę z losowymi obrazami, takimi jak krajobrazy i miejskie Skylininy. Te zdjęcia, pobrane z daleka, nie zawierają tylu szczegółów zbliżenia, więc wyglądają bardziej autentycznie. Mimo to może to być hit lub tęsknota. Obraz Sydney Opera House wygląda świetnie, chociaż nasycenie jest całkiem sporne-trawa jest wyjątkowo zielona, ​​a woda jest idealnym niebieskim. Ale kiedy poprosiłem o zdjęcie Wielkiego Kanionu, wyglądało to zupełnie sztucznie i nie oszukują nikogo, czy to prawdziwe zdjęcie. Jednak po kilku próbach osiągnęło lepiej.

Edycja jest lepsza, ale nie do końca tam

Jednym z moich uchwytów z poprzednią wersją była niezdarna edycja. Poproszeni o zmianę czegoś drobnego – jak kolor kapelusza – AI by to zrobiła, ale wygenerowałaby również nowy, zupełnie inny obraz. Idealnym scenariuszem byłoby utworzenie obrazu, a następnie pozwolenie na edycję każdego szczegółu dokładnie, takie jak zmiana odzieży, dodanie określonego przedmiotu lub zmiana warunków pogodowych, pozostawiając wszystko inne, takie jak Imagen 4 jest lepsze pod tym względem, ale niewiele. Kiedy skłoniłem go do zmiany koloru kurtki na niebieski, stworzył nowy obraz. Jednak, zwracając się konkretnie o zachowanie wszystkich innych szczegółów, udało mu się utrzymać dużo scenerii i przedmiotu z oryginału. Tak stało się w powyższych przykładach. Kobieta na trzecim zdjęciu była taka sama i wydawała się być w podobnym pokoju, ale jej pozy i kąt kamery były inne, co czyni go bardziej shotem niż edycja. Oto kolejny przykład kota jedzącego popsicle. Skłoniłem Gemini do zmiany koloru popsicle, i tak się stało, i zachował wiele szczegółów. Kot jest taki sam, podobnie jak większość tła. Ale uszy kota są teraz wystające, a kapelusz jest nieco inny. Mimo to dobra próba.
Imagen 4 Cat (2)Imagen 4 Cat

Pomimo swoich niedociągnięć Imagen 4 to świetne narzędzie

Nawet z jego problemami i długą listą życzeń brakujących funkcjonalności Imagen 4 jest nadal jednym z najlepszych dostępnych generatorów obrazów AI. Większość problemów, o których wspomniałem, jest również obecna w innym oprogramowaniu do generowania obrazu AI, więc nie jest tak, że Gemini stoi za konkurencją. Wygląda na to, że istnieją znaczące przeszkody techniczne, które należy pokonać, zanim tego rodzaju narzędzia będą mogły osiągnąć kolejny poziom precyzji i realizmu. Nadal istnieją inne ograniczenia, takie jak niemożność tworzenia obrazów znanych osób lub generowania treści, które naruszają wytyczne dotyczące bezpieczeństwa Google. To, czy jest to dobra, czy zła rzecz, to kwestia opinii. Dla użytkowników szukających mniejszych ograniczeń istnieją alternatywy takie jak GROK. Czy wypróbowałeś najnowszą generację obrazów w Gemini? Daj mi znać swoje myśli w komentarzach.

Click to rate this post!
[Total: 0 Average: 0]
Android