ChatGPT-4, program oparty na sztucznej inteligencji, zaprojektowany w celu rozumienia i generowania tekstu podobnego do ludzkiego, uzyskał lepsze wyniki niż rezydentowie chorób wewnętrznych i lekarze prowadzący w dwóch akademickich ośrodkach medycznych w przetwarzaniu danych medycznych i wykazywaniu rozumowania klinicznego. W liście badawczym opublikowanym w JAMA Internal Medicine lekarze-naukowcy z Beth Israel Deaconess Medical Center (BIDMC) porównali zdolność rozumowania w dużym modelu językowym (LLM) bezpośrednio z wynikami człowieka, korzystając ze standardów opracowanych do oceny lekarzy.
„Bardzo wcześnie stało się jasne, że LLM mogą stawiać diagnozy, ale każdy, kto praktykuje medycynę, wie, że medycyna to o wiele więcej” – powiedział Adam Rodman, lekarz medycyny, lekarz chorób wewnętrznych i badacz na wydziale medycyny BIDMC. „Za postawieniem diagnozy kryje się wiele etapów, dlatego chcieliśmy ocenić, czy specjaliści LLM są równie dobrzy jak lekarze w prowadzeniu tego rodzaju rozumowania klinicznego. Zaskakujące jest odkrycie, że te osoby są w stanie wykazać równoważne lub lepsze rozumowanie niż ludzie na przestrzeni całej ewolucji przypadku klinicznego.”
Rodman i współpracownicy wykorzystali wcześniej zatwierdzone narzędzie opracowane do oceny rozumowania klinicznego lekarzy, zwane skalą poprawionego IDEA (r-IDEA). Do badania zrekrutowano 21 lekarzy prowadzących i 18 rezydentów, z których każdy pracował nad jednym z 20 wybranych przypadków klinicznych składających się z czterech kolejnych etapów rozumowania diagnostycznego. Autorzy poinstruowali lekarzy, aby na każdym etapie spisali i uzasadnili swoje rozpoznania różnicowe. Chatbot GPT-4 otrzymał monit z identycznymi instrukcjami i przeprowadził wszystkie 20 przypadków klinicznych. Ich odpowiedzi były następnie oceniane pod kątem rozumowania klinicznego (wynik r-IDEA) i kilku innych mierników rozumowania.
„Pierwszym etapem jest segregacja danych, podczas której pacjent mówi, co go niepokoi, a następnie uzyskuje się parametry życiowe” – powiedziała główna autorka Stephanie Cabral, lekarz medycyny, rezydentka trzeciego roku chorób wewnętrznych w BIDMC. „Drugi etap to przegląd systemu, podczas którego uzyskujemy od pacjenta dodatkowe informacje. Trzeci etap to badanie fizykalne, a czwarty to badania diagnostyczne i obrazowe.”
Rodman, Cabral i ich współpracownicy odkryli, że chatbot uzyskał najwyższe wyniki r-IDEA, ze średnią ocen wynoszącą 10 na 10 w przypadku LLM, 9 w przypadku lekarzy prowadzących i 8 w przypadku mieszkańców. Chodziło raczej o remis między ludźmi a botem, jeśli chodzi o dokładność diagnostyczną – jak wysoko na liście postawionych diagnoz znajdowała się prawidłowa diagnoza – oraz prawidłowe rozumowanie kliniczne. Badacze odkryli jednak, że boty „po prostu się myliły” – w swoich odpowiedziach miały więcej przypadków nieprawidłowego rozumowania – znacznie częściej niż mieszkańcy. Odkrycie podkreśla pogląd, że sztuczna inteligencja będzie prawdopodobnie najbardziej przydatna jako narzędzie wzmacniające, a nie zastępujące ludzki proces rozumowania.
„Potrzebne są dalsze badania, aby określić, w jaki sposób najlepiej włączyć LLM do praktyki klinicznej, ale nawet teraz mogą one być przydatne jako punkt kontrolny, pomagając nam upewnić się, że czegoś nie przeoczyliśmy” – powiedział Cabral. „Mam ogromną nadzieję, że sztuczna inteligencja poprawi interakcję pacjent-lekarz, zmniejszając niektóre obecne niedociągnięcia i pozwalając nam bardziej skoncentrować się na rozmowie, którą prowadzimy z pacjentami.
„Wczesne badania sugerowały, że sztuczna inteligencja może stawiać diagnozy, jeśli zostaną jej przekazane wszystkie informacje” – powiedział Rodman. „Nasze badanie pokazuje, że sztuczna inteligencja potrafi naprawdę rozumować – być może lepiej niż ludzie na wielu etapach procesu. Mamy wyjątkową szansę na poprawę jakości i doświadczenia opieki zdrowotnej dla pacjentów”.
Współautorami byli m.in. Zahir Kanjee, MD, Philip Wilson, MD i Byron Crowe, MD z BIDMC; Daniel Restrepo, lekarz medycyny, ze szpitala Massachusetts General Hospital; i Raja-Elie Abdulnour, lekarz medycyny, z Brigham and Women's Hospital.
Ta praca została przeprowadzona przy wsparciu Harvard Catalyst | Harvard Clinical and Translational Science Center (National Center for Advancing Translational Sciences, National Institutes of Health) (nagroda UM1TR004408) oraz wkład finansowy Uniwersytetu Harvarda i stowarzyszonych z nim akademickich ośrodków opieki zdrowotnej.
Potencjalny konflikt interesów: Rodman zgłasza dotacje od Fundacji Gordona i Betty Moore. Crowe informuje o zatrudnieniu i kapitale własnym w Solera Health. Kanjee zgłasza otrzymanie honorariów za redagowanie książek i członkostwo w płatnej radzie doradczej ds. produktów edukacji medycznej niezwiązanych ze sztuczną inteligencją od Wolters Kluwer, a także honoraria za ustawiczne kształcenie medyczne dostarczane przez Oakstone Publishing. Abdulnour zgłasza zatrudnienie w Massachusetts Medical Society (MMS), organizacji non-profit będącej właścicielem NEJM Healer. Abdulnour nie otrzymuje tantiem ze sprzedaży NEJM Healer i nie posiada kapitału w NEJM Healer. MMS nie zapewnił środków na to badanie. Abdulnour donosi, że przyznaje fundusze od Fundacji Gordana i Betty Moore za pośrednictwem National Academy of Medicine Scholars in Diagnostic Excellence.