Ludzie rozwiązują nowe problemy z łatwością, bez żadnego specjalnego szkolenia ani praktyki, porównując je ze znanymi problemami i rozszerzając rozwiązanie na nowy problem. Proces ten, znany jako rozumowanie analogiczne, od dawna uważany jest za wyjątkową zdolność człowieka.
Ale teraz ludzie mogą być zmuszeni zrobić miejsce dla nowego dzieciaka w bloku.
Badania przeprowadzone przez psychologów z UCLA pokazują, że zdumiewająco model języka sztucznej inteligencji GPT-3 radzi sobie mniej więcej tak dobrze, jak studenci college’u, gdy są proszeni o rozwiązanie problemów z rozumowaniem, które zwykle pojawiają się w testach inteligencji i standardowych testach, takich jak SAT. Badanie zostało opublikowane w Nature Human Behaviour.
Ale autorzy artykułu piszą, że badanie rodzi pytanie: czy GPT-3 naśladuje ludzkie rozumowanie jako produkt uboczny ogromnego zestawu danych dotyczących nauki języka, czy też wykorzystuje zasadniczo nowy rodzaj procesu poznawczego?
Bez dostępu do wewnętrznych mechanizmów GPT-3 – których strzeże OpenAI, firma, która go stworzyła – naukowcy z UCLA nie mogą z całą pewnością stwierdzić, jak działają jego zdolności rozumowania. Piszą również, że chociaż GPT-3 działa znacznie lepiej niż oczekiwali w niektórych zadaniach rozumowania, popularne narzędzie AI nadal spektakularnie zawodzi w innych.
„Bez względu na to, jak imponujące są nasze wyniki, ważne jest, aby podkreślić, że ten system ma poważne ograniczenia” – powiedział Taylor Webb, doktor habilitowany z psychologii na UCLA i pierwszy autor badania. „Może rozumować analogicznie, ale nie może robić rzeczy, które są bardzo łatwe dla ludzi, takich jak używanie narzędzi do rozwiązywania zadań fizycznych. Kiedy daliśmy mu tego rodzaju problemy – niektóre z nich mogą szybko rozwiązać dzieci – rzeczy, które sugerował, były bezsensowne”.
Webb i jego współpracownicy przetestowali zdolność GPT-3 do rozwiązania zestawu problemów zainspirowanych testem znanym jako Raven’s Progressive Matrices, który wymaga od badanego przewidzenia następnego obrazu w skomplikowanym układzie kształtów. Aby umożliwić GPT-3 „zobaczenie” kształtów, Webb przekonwertował obrazy na format tekstowy, który GPT-3 mógł przetworzyć; takie podejście gwarantowało również, że sztuczna inteligencja nigdy wcześniej nie napotkałaby pytań.
Naukowcy poprosili 40 studentów studiów licencjackich UCLA o rozwiązanie tych samych problemów.
„Co zaskakujące, GPT-3 nie tylko radził sobie równie dobrze jak ludzie, ale także popełniał podobne błędy” – powiedział profesor psychologii z UCLA, Hongjing Lu, główny autor badania.
GPT-3 rozwiązał poprawnie 80% problemów – znacznie powyżej średniego wyniku badanych ludzi, który wynosił nieco poniżej 60%, ale mieścił się w zakresie najwyższych wyników u ludzi.
Naukowcy poprosili również GPT-3 o rozwiązanie zestawu pytań dotyczących analogii SAT, które ich zdaniem nigdy nie były publikowane w Internecie – co oznacza, że jest mało prawdopodobne, aby pytania te były częścią danych treningowych GPT-3. Pytania proszą użytkowników o wybranie par słów, które mają ten sam typ relacji. (Na przykład w problemie „Kochać” to „nienawiść” tak samo jak „bogaty” do jakiego słowa?, rozwiązaniem byłoby „biedny”).
Porównali wyniki GPT-3 z opublikowanymi wynikami wyników SAT kandydatów na studia i stwierdzili, że sztuczna inteligencja działała lepiej niż średni wynik dla ludzi.
Następnie naukowcy poprosili GPT-3 i ochotników-studentów o rozwiązanie analogii w oparciu o opowiadania – zachęcając ich do przeczytania jednego fragmentu, a następnie zidentyfikowania innej historii, która ma to samo znaczenie. Technologia poradziła sobie z tymi problemami gorzej niż studenci, chociaż GPT-4, najnowsza iteracja technologii OpenAI, działała lepiej niż GPT-3.
Naukowcy z UCLA opracowali własny model komputerowy, inspirowany ludzkim poznaniem, i porównują jego możliwości z komercyjną sztuczną inteligencją.
„Sztuczna inteligencja stawała się coraz lepsza, ale nasz psychologiczny model sztucznej inteligencji był nadal najlepszy w rozwiązywaniu problemów analogicznych, aż do grudnia ubiegłego roku, kiedy Taylor otrzymał najnowszą aktualizację GPT-3 i był równie dobry lub lepszy”, powiedział profesor psychologii z UCLA, Keith Holyoak, współautor badania.
Naukowcy stwierdzili, że GPT-3 jak dotąd nie był w stanie rozwiązać problemów wymagających zrozumienia przestrzeni fizycznej. Na przykład, jeśli GPT-3 otrzymał opis zestawu narzędzi – powiedzmy, tekturowej tuby, nożyczek i taśmy – których mógłby użyć do przenoszenia gum do żucia z jednej miski do drugiej, proponował dziwaczne rozwiązania.
„Modele do nauki języków próbują po prostu przewidywać słowa, więc jesteśmy zaskoczeni, że potrafią rozumować” – powiedział Lu. „W ciągu ostatnich dwóch lat technologia zrobiła duży skok w stosunku do swoich poprzednich wcieleń”.
Naukowcy z UCLA mają nadzieję zbadać, czy modele uczenia się języków faktycznie zaczynają „myśleć” jak ludzie, czy też robią coś zupełnie innego, co jedynie naśladuje ludzkie myślenie.
„GPT-3 może myśleć jak człowiek” – powiedział Holyoak. „Ale z drugiej strony ludzie nie uczyli się, pochłaniając cały Internet, więc metoda szkolenia jest zupełnie inna. Chcielibyśmy wiedzieć, czy naprawdę robi to tak, jak ludzie, czy też jest to coś zupełnie nowego – prawdziwą sztuczną inteligencję – która sama w sobie byłaby niesamowita”.
Aby się tego dowiedzieć, musieliby określić podstawowe procesy poznawcze, z których korzystają modele sztucznej inteligencji, co wymagałoby dostępu do oprogramowania i danych wykorzystywanych do szkolenia oprogramowania – a następnie przeprowadzania testów, co do których są pewni, że oprogramowanie jeszcze tego nie zrobiło. zostało podane. Powiedzieli, że będzie to kolejny krok w podejmowaniu decyzji, czym sztuczna inteligencja powinna się stać.
„Byłoby bardzo przydatne dla badaczy zajmujących się sztuczną inteligencją i kognitywnością, gdyby mieli zaplecze dla modeli GPT” – powiedział Webb. „Po prostu wprowadzamy dane wejściowe i uzyskujemy wyniki, a to nie jest tak decydujące, jak byśmy tego chcieli”.