Interview
Können Sprachmodelle wie ChatGPT Krankheiten diagnostizieren?

Bild: MDC
Eine aktuelle Studie zeigt, wo Sprachmodelle im medizinischen Alltag bereits gut funktionieren und wo nicht. Wir sprachen mit Altuna Akalin, dem Leiter der Studie, über Chancen, Grenzen und die Vision einer menschennahen KI im Klinikalltag.
Herr Akalin, Ihre Forschungsgruppe hat untersucht, ob Künstliche Intelligenz (KI) in Form eines Chatprogramms Diagnosen stellen und Patient:innen und Patienten schneller zur richtigen Ärzt:in lotsen kann. Wie sind Sie vorgegangen?
Wir haben auf drei Ebenen untersucht, wie KI die Patientinnen und Patienten und auch die Ärztinnen und Ärzte unterstützen kann: Erstens sollte die KI die passende Fachärztin oder den passenden Facharzt vorschlagen, zweitens sollte sie eine Diagnose stellen und drittens sollte sie die Dringlichkeit des Falles beurteilen. Für jede Ebene haben wir in zwei Szenarien durchgespielt, wie KI helfen kann. Das erste Szenario war, dass sich eine Patientin oder ein Patient zu Hause befand, so dass nur Symptome und allgemeine Daten wie Alter und Geschlecht vorlagen. Beim zweiten Szenario sind wir davon ausgegangen, dass man in einer ärztlichen Praxis war, so dass zusätzlich Informationen wie Puls und Blutdruck zur Verfügung standen.
Welche KI-Tools haben Sie dabei benutzt?
Wir haben vier verschiedene klinische Entscheidungsunterstützungs-Workflows entwickelt, die Claude – ein leistungsstarkes Sprachmodell des US-Unternehmens Anthropic – als zentrale Sprachkomponente nutzen. Dabei ging es jedoch nicht nur darum, das Modell einfach mit Eingaben zu füttern; vielmehr erforderten die Workflows eine umfassende konzeptionelle und technische Gestaltung.
Wie gut war die KI?
Bei der ersten Ebene, der Empfehlung einer passenden Fachärztin oder eines Facharztes, war die KI sehr zuverlässig. Wurden nur die Symptome genannt, dann wählte eine bestimmte KI bei 87 Prozent der Fälle bei den ersten drei Vorschlägen ein geeignetes Fachgebiet aus. Gaben wir der KI noch zusätzlich die Vitalparameter, die beim Besuch des Hausarztes erhoben worden wären, empfahl die KI bei 97 Prozent der Fälle einen passenden Facharzt oder eine passende Fachärztin. Auch bei der Diagnose schnitt die KI sehr gut ab: Die beste KI erkannte die richtige Erkrankung in mehr als 82 Prozent der Fälle – auch ohne Vitalparameter.
Wie könnten diese Tools im medizinischen Alltag helfen?
Wichtig: es geht nicht darum, den Arzt oder die Ärztin durch die KI zu ersetzen, das ist auch gar nicht möglich. Aber manchmal ist eine Art Sparring Partner, ein Partner für fachlichen Austausch, für Ärzte hilfreich – und genau das könnte die KI sein. Die meisten Fällen sind recht klar, da brauchen die Ärztinnen und Ärzte eigentlich keine Unterstützung bei der Diagnosestellung. Aber besonders bei komplizierteren Fällen kann für die Ärztinnen und Ärzte hilfreich sein, mit der KI direkt eine Zweitmeinung zu bekommen. Über einen solchen komplizierten Fall im persönlichen Umfeld bin ich übrigens erst auf die Idee gekommen, die KI als Unterstützung bei der Diagnose zu untersuchen: Meine Frau hatte verschiedene Beschwerden, es wurden zahlreiche Untersuchungen gemacht, wir wurden zu verschiedenen Ärztinnen und Ärzten geschickt, der Umfang der Dokumente wuchs von Arztbesuch zu Arztbesuch an. Bis wir wussten, welche seltene Erkrankung meine Frau hat, dauerte es viele Monate. Da dachte ich mir: Wenn man alle Befunde in eine Künstliche Intelligenz speisen kann, wäre das nicht eine gute Quelle für eine Zweitmeinung?
Und eine KI kann bei solchen komplexen Fällen tatsächlich besser sein als der Arzt?
Gerade bei seltenen Erkrankungen, von denen es Tausende gibt, kann die KI bei der Diagnosestellung in vielen Fällen sicher hilfreich sein. Wenn eine Patientin oder ein Patient verschiedene auffällige Befunde hat, die aber nicht zu den üblichen Erkrankungen zu passen scheinen, dann könnte die Ärztin oder der Arzt durch ein Durchforsten der Fachliteratur vielleicht fündig werden. Das kann mehr als eine Stunde dauern – Zeit, die man im klinischen Alltag oft nicht hat. Die KI kann das innerhalb von Sekunden machen, wenn sie alle Daten der Patientin oder des Patienten hat. Solche komplexen Fälle haben wir in der Studie zwar nicht gezielt untersucht, aber es liegt nahe, dass die KI hier häufig helfen kann.
Wie schnitt die KI bei der Triage ab, bei der Beurteilung der Dringlichkeit?
Da war die KI weniger akkurat. Die gute Nachricht: Die KI schätzte niemals einen schweren, lebensbedrohlichen Zustand als harmlos ein. Das heißt, sie wäre nicht dafür verantwortlich, dass Patientinnen und Patienten in Lebensgefahr nicht schnell behandelt werden. Aber mittelschwere Fälle schätzte die KI öfter falsch ein. Das führte dazu, dass sie manche Fälle in die Notaufnahme „schickte“, bei denen es nicht nötig war, für andere Fälle hingegen wurden die Notaufnahme nicht empfohlen, obwohl sie sinnvoll wäre. In der Triage in der Notfallversorgung sollten solche Fehleinschätzungen unter 5 Prozent liegen, das erreicht die KI noch nicht.
Woran könnte es liegen, dass die KI hier noch nicht gut genug ist?
Vereinfacht gesagt: Wir müssen bei der KI noch mehr Feintuning betreiben. Die KI ist ein lernendes System, sie muss mehr trainiert werden, also mehr Fälle bearbeiten, bei denen sie dann auch erfährt, ob sie recht hatte oder nicht und warum sie Unrecht hatte – dann kann sie auch bessere Entscheidungen treffen. Daher gibt es noch viel Potenzial nach oben bei der Triage mit KI.
Wie könnte die KI im klinischen Alltag integriert werden?
Das kommt sicher nicht mit einem Mal, sondern schrittweise. Damit KI hier angenommen wird, ist das Benutzer-Interface sehr wichtig: Die KI sollte den Medizinern den Austausch so leicht wie möglich machen. Ich könnte mir zum Beispiel gut vorstellen, dass es hilfreich sein könnte, wenn man nicht alles eintippen und chatten müsste, sondern einfach mit der KI sprechen könnte. Das würde die Schwelle zur Nutzung wahrscheinlich deutlich senken. Und die Rahmenbedingungen müssten sich verbessern: Befunde müssen natürlich in digitaler Form vorliegen, dass man sie der KI leicht vorlegen kann und diese sie direkt verarbeiten kann.
Was ist mit dem Datenschutz?
Das ist natürlich besonders in Deutschland ein großes und wichtiges Thema. Der Datenschutz muss von Anfang an mitgedacht werden, auch wenn eine KI mit Patientinnen und Patienten interagiert. Das kann herausfordernd sein, weil sich das Feld schnell entwickelt, aber wenn man da dranbleibt, dann kann ein ausreichender Schutz der Patientendaten gewährleistet werden, denke ich.
In welche Richtung in diesem Bereich wollen Sie nun weiterforschen?
Wir haben vor allem zwei Bereiche, in denen wir weiterforschen. Erstens machen wir zurzeit eine Studie darüber, wie KI die Therapieentscheidung bei Krebspatientinnen und -patienten unterstützen kann. Zweitens wollen wir verschiedene KI-Zweitmeinungstools entwickeln: Solche, die Ärztinnen und Ärzte unterstützen, aber auch solche, die Patientinnen und Patienten nutzen können. Alle diese Forschungsaktivitäten sind herausfordernd, da sich das Feld extrem schnell weiterentwickelt. Es kann sein, dass wir heute ein KI-Sprachmodell trainieren, aber in sechs Monaten gibt es ein besseres Sprachmodell. Aber wir passen uns diesem dynamischen Umfeld an und nehmen diese Herausforderung gerne an, um in diesem spannenden und vielversprechenden Bereich weiterzuforschen.
Altuna Akalin leitet die Technologieplattform „Bioinformatics and Omics Data Science“ am Institut für Medizinische Systembiologie des Max Delbrück Center in Berlin.
Die Studie: Farieda Gaber, Maqsood Shaik, Fabio Allega, et al. (2025) “Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis,” npj Digital Medicine DOI:10.1038/s41746-025-01684-1
Leser:innenkommentare