Załóżmy, że chcesz wyszkolić robota, aby rozumiał, jak korzystać z narzędzi, a następnie mógł szybko nauczyć się naprawiać dom za pomocą młotka, klucza i śrubokręta. Aby to zrobić, potrzebna byłaby ogromna ilość danych pokazujących użycie narzędzia.
Istniejące zbiory danych robotów różnią się znacznie pod względem modalności — niektóre zawierają kolorowe obrazy, a inne składają się na przykład z odcisków dotykowych. Dane można również gromadzić w różnych dziedzinach, takich jak symulacje lub demonstracje na ludziach. Każdy zestaw danych może uchwycić unikalne zadanie i środowisko.
Trudno jest efektywnie zintegrować dane z tak wielu źródeł w jednym modelu uczenia maszynowego, dlatego wiele metod wykorzystuje tylko jeden rodzaj danych do szkolenia robota. Jednak wyszkolone w ten sposób roboty, dysponujące stosunkowo niewielką ilością danych dotyczących konkretnego zadania, często nie są w stanie wykonywać nowych zadań w nieznanym środowisku.
Próbując wyszkolić lepsze roboty wielofunkcyjne, badacze z MIT opracowali technikę łączenia wielu źródeł danych w różnych domenach, modalnościach i zadaniach przy użyciu rodzaju generatywnej sztucznej inteligencji zwanej modelami dyfuzji.
Trenują oddzielny model dyfuzji, aby poznać strategię lub politykę wykonania jednego zadania przy użyciu jednego konkretnego zestawu danych. Następnie łączą zasady wyuczone przez modele dyfuzji w ogólną politykę, która umożliwia robotowi wykonywanie wielu zadań w różnych ustawieniach.
W symulacjach i eksperymentach w świecie rzeczywistym to podejście szkoleniowe umożliwiło robotowi wykonywanie wielu zadań z użyciem narzędzi i dostosowywanie się do nowych zadań, których nie widział podczas szkolenia. Metoda ta, znana jako kompozycja zasad (PoCo), doprowadziła do 20-procentowej poprawy wydajności zadań w porównaniu z technikami podstawowymi.
„Zajęcie się heterogenicznością zrobotyzowanych zbiorów danych przypomina problem z jajkiem kurzym. Jeśli chcemy wykorzystać dużo danych do szkolenia ogólnych zasad dotyczących robotów, najpierw potrzebujemy robotów możliwych do wdrożenia, aby uzyskać wszystkie te dane. Myślę, że wykorzystanie wszystkich dostępnych heterogenicznych danych , podobnie jak to, co badacze zrobili z ChatGPT, jest ważnym krokiem w dziedzinie robotyki” – mówi Lirui Wang, absolwentka elektrotechniki i informatyki (EECS) oraz główna autorka artykułu na temat PoCo.
Współautorami Wanga są Jialiang Zhao, absolwent inżynierii mechanicznej; Yilun Du, absolwentka EECS; Edward Adelson, profesor nauk o widzeniu Johna i Dorothy Wilsonów na Wydziale Nauk o Mózgu i Kognitywistyce oraz członek Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL); oraz starszy autor Russ Tedrake, profesor Toyoty w dziedzinie EECS, aeronautyki i astronautyki oraz inżynierii mechanicznej oraz członek CSAIL. Wyniki badań zostaną zaprezentowane podczas konferencji Robotyka: Nauka i Systemy.
Łączenie różnych zbiorów danych
Polityka robotyczna to model uczenia maszynowego, który pobiera dane wejściowe i wykorzystuje je do wykonania działania. Jednym ze sposobów myślenia o polityce jest strategia. W przypadku ramienia robota strategią tą może być trajektoria lub seria póz, w których ramię porusza się tak, aby podnosiło młotek i wbijało nim gwóźdź.
Zbiory danych używane do uczenia się zasad dotyczących robotów są zazwyczaj małe i skupiają się na jednym konkretnym zadaniu i środowisku, np. pakowaniu przedmiotów do pudeł w magazynie.
„Każdy zrobotyzowany magazyn generuje terabajty danych, ale należą one tylko do tej konkretnej instalacji robota pracującej nad tymi pakietami. Nie jest idealnie, jeśli chcesz używać wszystkich tych danych do szkolenia ogólnej maszyny” – mówi Wang.
Badacze z MIT opracowali technikę, która pozwala na wykorzystanie szeregu mniejszych zbiorów danych, takich jak te zebrane z wielu automatycznych magazynów, uczenie się od każdego z nich odrębnych zasad i łączenie ich w sposób umożliwiający robotowi uogólnienie wielu zadań.
Reprezentują każdą politykę przy użyciu rodzaju generatywnego modelu sztucznej inteligencji zwanego modelem dyfuzji. Modele dyfuzyjne, często używane do generowania obrazów, uczą się tworzyć nowe próbki danych, które przypominają próbki w zbiorze danych szkoleniowych, poprzez iteracyjne udoskonalanie ich wyników.
Zamiast jednak uczyć modelu dyfuzyjnego generowania obrazów, badacze uczą go generowania trajektorii robota. Robią to poprzez dodanie szumu do trajektorii w zbiorze danych szkoleniowych. Model dyfuzji stopniowo usuwa szum i udoskonala jego sygnał wyjściowy w celu uzyskania trajektorii.
Technika ta, znana jako Polityka rozpowszechniania, została wcześniej wprowadzona przez naukowców z MIT, Uniwersytetu Columbia i Instytutu Badawczego Toyoty. PoCo opiera się na pracach związanych z Polityką rozpowszechniania.
Zespół trenuje każdy model dyfuzji, korzystając z innego typu zbioru danych, na przykład z demonstracji wideo na ludziach i drugiego uzyskanego w wyniku teleoperacji ramienia robota.
Następnie badacze wykonują ważoną kombinację poszczególnych polityk, których nauczyły się wszystkie modele dyfuzji, iteracyjnie udoskonalając wyniki, tak aby połączona polityka spełniała cele każdej indywidualnej polityki.
Większy niż suma jego części
„Jedną z zalet tego podejścia jest to, że możemy połączyć polityki, aby uzyskać to, co najlepsze z obu światów. Na przykład polityka oparta na danych ze świata rzeczywistego może zapewnić większą zręczność, podczas gdy polityka oparta na symulacji może być w stanie aby osiągnąć większe uogólnienie” – mówi Wang.
Ponieważ zasady są szkolone oddzielnie, można mieszać i dopasowywać polityki rozpowszechniania, aby osiągnąć lepsze wyniki w przypadku określonego zadania. Użytkownik może również dodać dane w nowej modalności lub domenie, trenując dodatkową Politykę rozpowszechniania z tym zbiorem danych, zamiast rozpoczynać cały proces od zera.
Naukowcy przetestowali PoCo w symulacji i na prawdziwych robotycznych ramionach, które wykonywały różne zadania związane z narzędziami, takie jak wbijanie gwoździa młotkiem i odwracanie przedmiotu szpatułką. PoCo doprowadziło do 20-procentowej poprawy wydajności zadań w porównaniu z metodami podstawowymi.
„Uderzające było to, że kiedy zakończyliśmy strojenie i zwizualizowaliśmy to, wyraźnie możemy zobaczyć, że skomponowana trajektoria wygląda znacznie lepiej niż każda z nich osobno” – mówi Wang.
W przyszłości badacze chcą zastosować tę technikę do zadań długoterminowych, w których robot będzie podnosił jedno narzędzie, używał go, a następnie przełączał się na inne. Chcą także uwzględnić większe zbiory danych dotyczących robotyki, aby poprawić wydajność.
„Aby robotyka odniosła sukces, będziemy potrzebować wszystkich trzech rodzajów danych: danych internetowych, danych symulacyjnych i danych rzeczywistych robotów. Jak je skutecznie połączyć, będzie pytaniem za milion dolarów. PoCo to solidny krok na właściwej drodze” – mówi Jim Fan, starszy pracownik naukowy w firmie NVIDIA i lider inicjatywy AI Agents, który nie był zaangażowany w tę pracę.
Badania te są częściowo finansowane przez Amazon, Singapurską Agencję Nauki i Technologii Obrony, amerykańską Narodową Fundację Nauki i Instytut Badawczy Toyoty.