W zeszłym miesiącu OpenAI wprowadziło na rynek swój najnowszy produkt AI chatbot, GPT-4. Według ludzi z OpenAI, bot, który wykorzystuje uczenie maszynowe do generowania tekstu w języku naturalnym, zdał egzamin adwokacki z wynikiem w 90 percentylu, zdał 13 z 15 egzaminów AP i uzyskał prawie doskonały wynik w teście GRE Verbal.
Dociekliwe umysły z BYU i 186 innych uniwersytetów chciały wiedzieć, jak technologia OpenAI wypadnie na egzaminach księgowych. Przetestowali więc oryginalną wersję, ChatGPT. Naukowcy twierdzą, że chociaż w dziedzinie księgowości wciąż jest wiele do zrobienia, jest to przełom, który zmieni sposób, w jaki wszyscy nauczają i uczą się – na lepsze.
„Kiedy ta technologia pojawiła się po raz pierwszy, wszyscy martwili się, że uczniowie mogą teraz używać jej do oszukiwania” – powiedział główny autor badania, David Wood, profesor rachunkowości BYU. „Ale okazje do oszukiwania istniały zawsze. Dlatego staramy się skupić na tym, co możemy zrobić z tą technologią teraz, czego nie mogliśmy zrobić wcześniej, aby poprawić proces nauczania dla wykładowców i proces uczenia się dla studentów. Testowanie to było otwierające oczy”.
Od debiutu w listopadzie 2022 r. ChatGPT stał się najszybciej rozwijającą się platformą technologiczną w historii, osiągając 100 milionów użytkowników w mniej niż dwa miesiące. W odpowiedzi na intensywną debatę na temat tego, jak modele takie jak ChatGPT powinny uwzględniać w edukacji, Wood postanowił zatrudnić jak najwięcej profesorów, aby zobaczyć, jak sztuczna inteligencja wypada w porównaniu z rzeczywistymi studentami rachunkowości uniwersyteckiej.
Jego współautor akcji rekrutacyjnej w mediach społecznościowych eksplodował: 327 współautorów ze 186 instytucji edukacyjnych w 14 krajach wzięło udział w badaniu, odpowiadając na 25 181 pytań egzaminacyjnych z rachunkowości w klasie. Zrekrutowali również studentów BYU (w tym córkę Wooda, Jessicę), aby przekazali kolejne 2268 pytań testowych z podręcznika do ChatGPT. Pytania dotyczyły systemów informacji księgowej (AIS), audytu, rachunkowości finansowej, rachunkowości zarządczej i podatków, a ich poziom trudności i rodzaj był zróżnicowany (prawda/fałsz, wielokrotny wybór, krótka odpowiedź itp.).
Chociaż wydajność ChatGPT była imponująca, uczniowie radzili sobie lepiej. Studenci uzyskali ogólną średnią 76,7%, w porównaniu z wynikiem ChatGPT wynoszącym 47,4%. Na 11,3% pytań ChatGPT uzyskał wynik wyższy niż średnia uczniów, szczególnie dobrze radząc sobie z AIS i audytem. Ale bot AI wypadł gorzej w ocenach podatkowych, finansowych i zarządczych, prawdopodobnie dlatego, że ChatGPT miał problemy z procesami matematycznymi wymaganymi dla tego drugiego typu.
Jeśli chodzi o typ pytania, ChatGPT radził sobie lepiej w przypadku pytań typu prawda/fałsz (68,7% poprawnych odpowiedzi) i pytań wielokrotnego wyboru (59,5%), ale miał problemy z pytaniami z krótką odpowiedzią (między 28,7% a 39,1%). Ogólnie rzecz biorąc, odpowiedzi na pytania wyższego rzędu były trudniejsze dla ChatGPT. W rzeczywistości czasami ChatGPT zapewniał autorytatywne pisemne opisy nieprawidłowych odpowiedzi lub odpowiadał na to samo pytanie na różne sposoby.
„To nie jest idealne; nie będziesz go używać do wszystkiego” – powiedziała Jessica Wood, obecnie studentka pierwszego roku na BYU. „Próba uczenia się wyłącznie za pomocą ChatGPT to głupota”.
Naukowcy odkryli również inne fascynujące trendy w badaniu, w tym:
ChatGPT nie zawsze rozpoznaje, kiedy robi obliczenia i popełnia bezsensowne błędy, takie jak dodanie dwóch liczb w problemie z odejmowaniem lub nieprawidłowe dzielenie liczb. ChatGPT często zapewnia wyjaśnienia swoich odpowiedzi, nawet jeśli są one niepoprawne. Innym razem opisy ChatGPT są dokładne, ale następnie wybierze niewłaściwą odpowiedź wielokrotnego wyboru. ChatGPT czasami zmyśla fakty. Na przykład, dostarczając referencję, generuje ona realnie wyglądającą referencję, która jest całkowicie sfabrykowana. Dzieło, a czasami autorzy nawet nie istnieją.
To powiedziawszy, autorzy w pełni oczekują, że GPT-4 poprawi się wykładniczo w kwestiach księgowych postawionych w ich badaniu oraz w kwestiach wspomnianych powyżej. Najbardziej obiecujące jest dla nich to, w jaki sposób chatbot może pomóc ulepszyć nauczanie i uczenie się, w tym możliwość projektowania i testowania zadań, a być może być używany do szkicowania części projektu.
„To okazja do zastanowienia się, czy uczymy informacji o wartości dodanej, czy nie” – powiedziała współautorka badania i profesor rachunkowości BYU, Melissa Larson. „To zakłócenie i musimy ocenić, dokąd zmierzamy. Oczywiście nadal będę miał TA, ale to zmusi nas do korzystania z nich na różne sposoby”.