4 chatbotom zadali 212 pytań o zdrowie. Reakcja AI to sygnał ostrzegawczy

Diagnoza z czatu czy od lekarza? 76% to za mało, by zastąpić specjalistę Fot. Unsplash. 
Ból głowy, wysypka, a może niepokojący wynik badania? Coraz częściej pierwszym miejscem poszukiwania odpowiedzi nie jest już wyszukiwarka internetowa, lecz chatbot oparty na sztucznej inteligencji. Użytkownicy pytają o możliwe przyczyny dolegliwości, proszą o interpretację objawów i wskazówki dotyczące dalszych kroków.
Daj napiwek autorowi
Reklama.
Wygraj bilety na koncert sanah NA STADIONACH!
REKLAMA 
Naukowcy z Penn State sprawdzili, jak dobrze takie narzędzia radzą sobie z medycznymi pytaniami. Wyniki? Odpowiedzi uznano za poprawne w 76 proc. przypadków. To sporo, ale wciąż za mało, by traktować AI jako źródło nieomylnej diagnozy.
Jeszcze niedawno podobną rolę pełnił Google. Dziś internetowy "doktor" odpowiada pełnymi zdaniami i prowadzi rozmowę. Problem polega na tym, że nawet przekonująco brzmiąca odpowiedź może zawierać błędy.
AI coraz częściej zastępuje internetowego "doktora"
Naukowcy z Penn State sprawdzili, jak ludzie korzystają z AI, gdy szukają informacji medycznych. Nie chodziło wyłącznie o to, czy odpowiedzi są trafne. Równie ważne było pytanie o to, co się dzieje, gdy zaczynamy im zbyt łatwo ufać.
REKLAMA 
– Nasza praca skupia się na scenariuszach, w których przeciętny użytkownik internetu zadaje pytania dotyczące zdrowia sztucznej inteligencji. Taka perspektywa była dotąd rzadko uwzględniana w badaniach nad dużymi modelami językowymi – w wywiadzie dla Medical Xpress wyjaśniła współautorka badania Amulya Yadav z Penn State.
Czy chatbot może dziś pełnić rolę pierwszego źródła informacji zdrowotnej, podobnie jak przez lata robiły to wyszukiwarki internetowe. Temat jest o tyle istotny, że pytanie, czy chat GPT zostanie twoim lekarzem, przestało być czysto akademickie – wiele firm technologicznych aktywnie pracuje nad medycznymi zastosowaniami swoich modeli.

To więc postanowili sprawdzić badacze z Penn State. Aby to zweryfikować, naukowcy przeprowadzili eksperyment pod nazwą "Diagnose-a-thon". Wzięły w nim udział 34 osoby związane z uczelnią. Ich zadaniem było przygotowanie pytań dotyczących różnych problemów zdrowotnych. Powstało ich 212.
REKLAMA 
Do generowania odpowiedzi wykorzystano cztery popularne modele: 
ChatGPT-4o, 
ChatGPT-3.5, 
Gemini 1.5 Pro,
Llama 3 8B.
Istotnym elementem badania było możliwie wierne odtworzenie codziennego sposobu korzystania z takich narzędzi. Uczestnicy sami wybierali chatboty i formułowali pytania tak, jak zrobiliby to poza laboratorium. Później wygenerowane odpowiedzi trafiły do oceny dziewięciu certyfikowanych lekarzy. Specjaliści analizowali nie tylko poprawność przekazywanych informacji, lecz także ryzyko potencjalnej szkody dla pacjenta.
Trafność na poziomie 76 proc. to dobry wynik, ale nie idealny
Rezultaty można uznać za zachęcające. Za poprawne uznano 76,2 proc. odpowiedzi wygenerowanych przez modele. Wyniki nie były jednak równe we wszystkich specjalizacjach. Pytania dotyczące ginekologii, położnictwa czy problemów laryngologicznych sprawiały chatbotom stosunkowo niewiele trudności. Więcej potknięć pojawiało się przy neurologii, dermatologii oraz chorobach wewnętrznych. To właśnie w tych obszarach eksperci najczęściej kwestionowali poprawność odpowiedzi.
REKLAMA 
Pojawiła się też interesująca zależność. Im bardziej szczegółowe było pytanie, tym częściej chatbot udzielał poprawnej odpowiedzi. Najwyższą skuteczność osiągały prompty liczące od 60 do 250 znaków. Jednak mimo wyniku przekraczającego 76 proc., druga strona statystyki wygląda mniej optymistycznie. Odsetek błędnych odpowiedzi nadal przekraczał 20 proc. Według autorów badania to około dwa razy więcej niż w przypadku lekarzy. Część pomyłek mogła prowadzić do decyzji potencjalnie niebezpiecznych dla zdrowia.
To właśnie ten fragment budzi największy niepokój. Wystarczy jedna nietrafiona sugestia, żeby w medycynie sprawy potoczyły się w złą stronę. Szczególnie jeśli ktoś uzna, że chatbot wie wystarczająco dużo i nie trzeba już iść do lekarza.
Skala tego problemu jest realna – głośnym przypadkiem, który opisuje mamadu.pl, był 19-latek, który zmarł po konsultacji ze sztuczną inteligencją, wielokrotnie pytając ChatGPT o bezpieczeństwo łączenia leków. Jego rodzice wytoczyli firmie OpenAI proces sądowy.
Zobacz także
AI zmienia nasze mózgi. Naukowcy biją na alarm i radzą jedną rzecz
Uczą AI, jak poprawiać nasze posiłki. Jeden składnik i rachunek spada o 34 proc.
Sztuczna inteligencja nie zastąpi lekarza, ale może go wspierać
Na tym badanie się nie skończyło. Zespół sprawdził również, jak poradzą sobie modele dodatkowo szkolone na podręcznikach medycznych, zaleceniach klinicznych i publikacjach naukowych. Ku zaskoczeniu badaczy nie przyniosło to wyraźnej przewagi. Lekarze oraz studenci medycyny oceniający odpowiedzi często wybierali standardowe wersje modeli. Wynik ten pokazuje, że droga do lepszych odpowiedzi nie zawsze prowadzi przez dokładanie kolejnych porcji danych.
REKLAMA 
– Wkraczamy w nową erę opieki zdrowotnej, a sztuczna inteligencja będzie jej ważnym elementem – podkreśliła współautorka badania Jennifer Kraschnewski z Penn State College of Medicine.
Zdaniem autorów badania przyszłość medycyny będzie w pewnym stopniu związana z narzędziami AI. Ich rola ma jednak polegać na wspieraniu specjalistów, a nie zastępowaniu ich. Sztuczna inteligencja jest przydatna także w medycynie, ale algorytmy powinny działać jako narzędzie w rękach lekarza, nie autonomiczny doradca.

Jednocześnie wszystko wskazuje na to, że użytkownicy nie zamierzają rezygnować z chatbotów. W końcu dla wielu osób stały się one pierwszym miejscem poszukiwania informacji o zdrowiu. Problem pojawia się wtedy, gdy odpowiedzi generowane przez algorytm zaczynają zastępować konsultację lekarską. Chodzi o to, że między pomocą a nadmiernym zaufaniem istnieje cienka granica.
REKLAMA 
Badanie pokazuje, że chatboty coraz sprawniej poruszają się w świecie informacji medycznych. Warto jednak pamiętać, że zjawisko nadmiernego polegania na AI dotyczy nie tylko dorosłych – badania pokazują, że nastolatki uzależniają się od chatbotów AI, traktując je jak powiernika i jedyne źródło informacji. 
Nadal brakuje im jednak tego, co pozostaje fundamentem pracy lekarza – doświadczenia klinicznego, odpowiedzialności za pacjenta i możliwości oceny jego stanu podczas rzeczywistej wizyty. Nie bez powodu ChatGPT postawił właściwą diagnozę tam, gdzie zawiodło 17 lekarzy. Jednak to wyjątek, a nie reguła, i nie zmienia faktu, że AI bez nadzoru medycznego wciąż pozostaje narzędziem wysokiego ryzyka.