Niezręczny. Ludzie są nadal lepsi niż AI w czytaniu pokoju

Niezręczny. Ludzie są nadal lepsi niż AI w czytaniu pokoju

Okazuje się, że ludzie są lepsi niż obecne modele AI w opisywaniu i interpretacji interakcji społecznych w poruszającej scenie-umiejętność niezbędna do samochodów samobieżnych, robotów wspomagających i innych technologii, które opierają się na systemach AI w celu nawigacji po świecie rzeczywistym.

Badania, prowadzone przez naukowców z Johns Hopkins University, wykazały, że systemy sztucznej inteligencji nie rozumieją dynamiki społecznej i kontekstu niezbędnego do interakcji z ludźmi i sugeruje, że problem może być zakorzeniony w infrastrukturze systemów AI.

„Na przykład sztuczna inteligencja samochodu samojezdnego musiałaby rozpoznać intencje, cele i działania ludzkich kierowców i pieszych. Chciałbyś, aby wiedział, w którą stronę pieszy zamierzają chodzić, lub czy dwie osoby są w rozmowie, a nie zamierzają przejść przez ulicę”-powiedziała główna autorka Leyli Isik, asystentka profesora nauki o nauce poznawczej w Johns Hopkins. „Za każdym razem, gdy chcesz, aby sztuczna inteligencja wchodziła w interakcje z ludźmi, chcesz, aby mogła rozpoznać to, co robią ludzie. Myślę, że to rzuca światło na fakt, że te systemy nie mogą teraz”.

Kathy Garcia, doktorantka pracująca w laboratorium ISIK w czasie badań i współistniejącej autora, przedstawi wyniki badań na Międzynarodowej Konferencji na temat reprezentacji uczenia się 24 kwietnia.

Aby ustalić, w jaki sposób modele AI zmierzają w porównaniu z percepcją człowieka, naukowcy poprosili ludzi o obejrzenie trójwarstwowych wideoklipów i ocenianie funkcji ważnych dla zrozumienia interakcji społecznych w skali od jednego do pięciu. Klipy obejmowały osoby interakcje ze sobą, wykonywanie zajęć obok siebie lub samodzielne prowadzenie niezależnych działań.

Następnie naukowcy zapytali ponad 350 modeli języka, wideo i obrazów AI, aby przewidzieć, w jaki sposób ludzie ocenią filmy i jak ich mózg zareagują na oglądanie. W przypadku dużych modeli językowych naukowcy ocenili krótkie, napisane przez człowieka podpisy.

Uczestnicy w większości zgodzili się ze sobą na wszystkie pytania; Modele AI, niezależnie od wielkości lub danych, na których zostali przeszkoleni, nie. Modele wideo nie były w stanie dokładnie opisać tego, co ludzie robią w filmach. Nawet modele obrazów, które otrzymały serię wciąż do analizy, nie mogły wiarygodnie przewidzieć, czy ludzie się komunikują. Modele językowe były lepsze w przewidywaniu ludzkich zachowań, podczas gdy modele wideo były lepsze w przewidywaniu aktywności neuronowej w mózgu.

Naukowcy podali, że wyniki stanowi ostry kontrast z sukcesem AI w czytaniu zdjęć.

„Nie wystarczy po prostu zobaczyć obraz i rozpoznać obiekty i twarze. To był pierwszy krok, który zaczął nam długą drogę w AI. Ale prawdziwe życie nie jest statyczne. Potrzebujemy AI, aby zrozumieć historię, która rozwija się w scenie. Zrozumienie relacji, kontekstu i dynamiki interakcji społecznych jest następnym krokiem, a badania te sugerują, że może istnieć ślepy punkt w rozwoju modelki.

Naukowcy uważają, że dzieje się tak, ponieważ sieci neuralne AI były inspirowane infrastrukturą części mózgu, która przetwarza obrazy statyczne, która różni się od obszaru mózgu, który przetwarza dynamiczne sceny społeczne.

„Istnieje wiele niuansów, ale wielkim wynosem jest to, że żaden z modeli AI nie może pasować do ludzkiego mózgu i reakcji zachowań na sceny na całym świecie, podobnie jak dla scen statycznych” – powiedział ISik. „Myślę, że istnieje coś fundamentalnego w sposobie przetwarzania scen, których brakuje tych modeli”.

Click to rate this post!
[Total: 0 Average: 0]
science