Nowe narzędzie AI generuje wysokiej jakości obrazy szybciej niż najnowocześniejsze podejścia

Nowe narzędzie AI generuje wysokiej jakości obrazy szybciej niż najnowocześniejsze podejścia

Zdolność do szybkiego generowania wysokiej jakości obrazów ma kluczowe znaczenie dla tworzenia realistycznych symulowanych środowisk, które można wykorzystać do szkolenia samochodów samojezdnych, aby uniknąć nieprzewidywalnych zagrożeń, czyniąc je bezpieczniejszymi na prawdziwych ulicach.

Ale generatywne techniki AI są coraz częściej stosowane do tworzenia takich obrazów. Jeden popularny rodzaj modelu, zwany modelem dyfuzji, może tworzyć oszałamiająco realistyczne obrazy, ale jest zbyt powolny i intensywny obliczeniowo dla wielu aplikacji. Z drugiej strony modele autoregresyjne, które Power LLM, takie jak Chatgpt, są znacznie szybsze, ale wytwarzają obrazy gorszej jakości, które często są pełne błędów.

Naukowcy z MIT i NVIDIA opracowali nowe podejście, które łączy najlepsze z obu metod. Ich hybrydowa narzędzie generowania obrazu wykorzystuje model autoregresywny do szybkiego przechwytywania dużego obrazu, a następnie małego modelu dyfuzji, aby udoskonalić szczegóły obrazu.

Ich narzędzie, znane jako Hart (skrót od hybrydowego autoregresji transformatora) może generować obrazy pasujące lub przekraczające jakość najnowocześniejszych modeli dyfuzji, ale robią to około dziewięć razy szybciej.

Proces generowania zużywa mniej zasobów obliczeniowych niż typowe modele dyfuzji, umożliwiając HART działanie lokalnie na komercyjnym laptopie lub smartfonie. Użytkownik musi tylko wprowadzić jeden wiersz języka naturalnego do interfejsu HART, aby wygenerować obraz.

Hart może mieć szeroką gamę aplikacji, takich jak pomaganie naukowcom w szkoleniu robotów w wykonaniu złożonych zadań w świecie rzeczywistym i pomaganie projektantom w tworzeniu uderzających scen dla gier wideo.

„Jeśli malujesz krajobraz, a raz po prostu malujesz całe płótno, może nie wyglądać bardzo dobrze. Ale jeśli pomalujesz duży obraz, a następnie udoskonalisz obraz mniejszymi pociągnięciami pędzla, twój obraz może wyglądać o wiele lepiej. To jest podstawowy pomysł z Hartem”, mówi Phd Haotian Tang '25, współczynnik nowej papieru na okręcie.

Dołącza do niego autor, który jest liderem Yecheng Wu, studentem licencjackim na Uniwersytecie Tsinghua; Starszy autor Song Han, profesor nadzwyczajny na Wydziale Inżynierii Elektrycznej i Informatyki (EECS), członek MIT-IBM Watson AI Lab i wybitny naukowiec Nvidia; a także inne na MIT, Tsinghua University i Nvidia. Badania zostaną przedstawione na międzynarodowej konferencji na temat reprezentacji uczenia się.

Najlepsze z obu światów

Popularne modele dyfuzji, takie jak stabilna dyfuzja i Dall-E, są znane z tworzenia bardzo szczegółowych obrazów. Modele te generują obrazy w procesie iteracyjnym, w którym przewidują pewną ilość losowego szumu na każdym pikselu, odejmują szum, a następnie powtarzają proces przewidywania i „denerwowania” wiele razy, aż wygenerują nowy obraz, który jest całkowicie wolny od szumu.

Ponieważ model dyfuzyjny oddaje wszystkie piksele na obrazie na każdym etapie, a może być 30 lub więcej kroków, proces jest powolny i kosztowny obliczeniowo. Ale ponieważ model ma wiele szans na poprawienie szczegółów, pomyli się, obrazy są wysokiej jakości.

Modele autoregresyjne, powszechnie używane do przewidywania tekstu, mogą generować obrazy, przewidując sekwencyjnie plastry obrazu, kilka pikseli na raz. Nie mogą cofnąć się i naprawić swoje błędy, ale proces prognozowania sekwencyjnego jest znacznie szybszy niż dyfuzja.

Modele te wykorzystują reprezentacje znane jako tokeny do przewidywania. Model autoregresywny wykorzystuje autoencoder do kompresji pikseli surowego obrazu w tokeny dyskretne, a także rekonstruować obraz z przewidywanych tokenów. Podczas gdy zwiększa to prędkość modelu, utrata informacji, która występuje podczas kompresji, powoduje błędy, gdy model generuje nowy obraz.

Dzięki HART badacze opracowali podejście hybrydowe, które wykorzystuje model autoregresyjny do przewidywania skompresowanych, dyskretnych tokenów obrazu, a następnie małego modelu dyfuzji do przewidywania resztkowych tokenów. Resztkowe tokeny rekompensują utratę informacji modelu poprzez przechwytywanie szczegółów pominięte przez dyskretne tokeny.

„Możemy osiągnąć ogromny wzrost pod względem jakości rekonstrukcji. Nasze resztkowe tokeny poznają szczegóły o wysokiej częstotliwości, takich jak krawędzie obiektu lub włosów, oczu lub ust.

Ponieważ model dyfuzji przewiduje tylko pozostałe szczegóły po wykonaniu swojego modelu autoregresyjnego, może wykonać zadanie w ośmiu krokach, zamiast zwykłego 30 lub więcej standardowy model dyfuzji wymaga wygenerowania całego obrazu. Ten minimalny koszt dodatkowego modelu dyfuzji pozwala HART zachować przewagę prędkości modelu autoregresyjnego, jednocześnie znacznie zwiększając jego zdolność do generowania skomplikowanych szczegółów obrazu.

„Model dyfuzji ma łatwiejszą pracę, co prowadzi do większej wydajności” – dodaje.

Przewyższając większe modele

Podczas opracowywania HART naukowcy napotykali wyzwania w skutecznej integracji modelu dyfuzyjnego w celu zwiększenia modelu autoregresyjnego. Odkryli, że włączenie modelu dyfuzyjnego we wczesnych stadiach procesu autoregresywnego spowodowało akumulację błędów. Zamiast tego ich ostateczny projekt stosowania modelu dyfuzyjnego do przewidywania tylko resztkowych tokenów jako ostatni krok znacznie poprawił jakość generacji.

Ich metoda, która wykorzystuje kombinację modelu autoregresyjnego transformatora z 700 milionami parametrów i lekkim modelem dyfuzji z 37 milionami parametrów, może generować obrazy tej samej jakości, co te stworzone przez model dyfuzyjny z 2 miliardami parametrów, ale robi to około dziewięć razy szybsze. Wykorzystuje około 31 procent mniej obliczeń niż najnowocześniejsze modele.

Ponadto, ponieważ Hart używa modelu autoregresyjnego do wykonania większości pracy-tego samego rodzaju modelu, który zasila LLM-jest on bardziej kompatybilny do integracji z nową klasą zjednoczonych modeli generatywnych w języku wizji. W przyszłości można wchodzić w interakcje z ujednoliconym modelem generatywnym w języku wizji, być może, prosząc go o pokazanie pośrednich kroków wymaganych do złożenia mebli.

„LLM są dobrym interfejsem dla wszystkich modeli, takich jak modele multimodalne i modele, które mogą się rozumować. Jest to sposób na popchnięcie inteligencji do nowej granicy. Wydajny model generowania obrazu odblokowałby wiele możliwości”-mówi.

W przyszłości naukowcy chcą zejść tą ścieżką i zbudować modele w języku wizji na szczycie architektury Hart. Ponieważ HART jest skalowalny i uogólniony na wiele metod, chcą również zastosować go do zadań wytwarzania wideo i prognozowania audio.

Badania te zostały częściowo sfinansowane przez MIT-IBM Watson AI Lab, MIT i Amazon Science Hub, program sprzętowy MIT AI i National Science Foundation. Infrastruktura GPU do szkolenia ten model został przekazany przez NVIDIA.

Click to rate this post!
[Total: 0 Average: 0]
science