Harvard: AI diagnozuje lepiej niż 2 lekarzy SOR — trzeci wygrywa
- Badanie Harvardu sprawdziło skuteczność LLM-ów na rzeczywistych przypadkach z izby przyjęć i innych kontekstach medycznych.
- Co najmniej jeden model językowy osiągnął wyższą trafność diagnostyczną niż dwóch ludzkich lekarzy testowanych w tych samych warunkach.
- Wyniki dotyczą zarówno precyzji diagnozy, jak i szerszego zestawu scenariuszy klinicznych.
AI diagnozuje trafniej niż lekarze SOR-u
Harvard opublikował badanie, w którym duże modele językowe pokonały dwóch ludzkich lekarzy w trafności diagnoz stawianych na podstawie rzeczywistych przypadków z izby przyjęć. To nie symulacja ani zestaw podręcznikowych pytań — dane pochodziły z realnych wizyt pacjentów.
Badacze testowali LLM-y w kilku kontekstach medycznych jednocześnie. SOR był tylko jednym z nich, ale to właśnie tam wyniki zrobiły największe wrażenie: przynajmniej jeden model wykręcił lepszy wynik niż para lekarzy oceniających te same przypadki.
Metodologia ma znaczenie
Szczegóły metodologiczne są tu absolutnie krytyczne. Lekarze w badaniu działali bez typowych narzędzi diagnostycznych — bez możliwości zlecenia badań, bez bezpośredniego kontaktu z pacjentem, tylko na podstawie opisów przypadków. Modele językowe pracowały na tym samym zestawie informacji.
To ważne zastrzeżenie. Prawdziwy lekarz na SOR-ze bada pacjenta, słyszy oddech, widzi kolor skóry, może od razu zlecić EKG. Model językowy dostaje tekst. Wyrównanie tych warunków to metodologiczny kompromis, który część środowiska medycznego będzie kwestionować.
Badanie nie ujawniło jednak, który konkretnie model wypadł najlepiej — informacja o tym, czy był to GPT-4, Claude, Gemini czy inny system, nie trafiła do doniesień medialnych na etapie publikacji wyników przez TechCrunch.
Czy AI zastąpi lekarzy na izbie przyjęć?
Krótka odpowiedź: nie przy tym badaniu. Dłuższa: nikt rozsądny tego nie twierdzi, ale liczby robią swoje.
Środowisko medyczne od lat spiera się o granicę między wsparciem a zastąpieniem. AI jako drugi głos, system weryfikujący diagnozę zmęczonego lekarza po 16-godzinnym dyżurze — to scenariusz, który ma sens. Samodzielny automat wystawiający skierowania na ostry dyżur to zupełnie inna rozmowa, do której te wyniki nie upoważniają.
Warto też pamiętać, że SOR-y borykają się z permanentnym niedoborem personelu. W Polsce czas oczekiwania na izbę przyjęć potrafi wynosić kilka godzin. Model językowy, który pomaga triaż przeprowadzić szybciej i trafniej, to nie science fiction — to aplikacja, którą kilka startupów już próbuje wdrożyć.
Szerszy kontekst badania
Harvard nie ograniczył się do izby przyjęć. Badanie obejmowało też inne konteksty kliniczne — diagnostykę różnicową, interpretację wyników, planowanie leczenia. W większości przypadków LLM-y wypadły co najmniej porównywalnie z ludzkimi specjalistami.
To wpisuje się w serię podobnych badań z ostatnich 18 miesięcy. Google DeepMind raportował wysoką skuteczność swojego modelu MedPaLM 2 w egzaminach medycznych. Badanie opublikowane w NEJM Evidence w 2024 roku pokazało, że GPT-4 dorównuje internistom w diagnozowaniu trudnych przypadków z New England Journal of Medicine. Harvard dodaje do tego stosu kolejną porcję danych — tym razem z warunków bliższych codziennej praktyce klinicznej niż pytania egzaminacyjne.
Co dalej z regulacjami w medycynie?
FDA w USA klasyfikuje algorytmy diagnostyczne jako wyroby medyczne klasy II lub III — w zależności od ryzyka. Oznacza to pełną ścieżkę regulacyjną: badania kliniczne, zatwierdzenia, audyty. Żaden z głównych LLM-ów nie przeszedł jeszcze takiego procesu dla zastosowań diagnostycznych.
Unia Europejska idzie podobną drogą przez AI Act, który wyroby medyczne oparte na AI wrzuca do kategorii wysokiego ryzyka z odpowiednimi wymogami certyfikacji.
Praktyczne wdrożenie wyników harwardzkiego badania w realnym szpitalu to zatem nie kwestia miesięcy. Ale każde kolejne badanie, które pokazuje przewagę modeli nad lekarzami w kontrolowanych warunkach, przyspiesza presję regulacyjną i biznesową na odpalenie tych systemów w klinikach.
Badanie ukazało się w momencie, gdy kilka szpitali w USA prowadzi już pilotaże AI-assisted triage — bez oficjalnych zatwierdzeń FDA, w ramach tzw. clinical decision support, który podlega łagodniejszym przepisom.