Interview

KI sagt Krankheitsrisiko voraus

Bild: Greenbutterfly/Shutterstock

Ein neues KI-Modell sagt das persönliche Risiko für über 1.000 Krankheiten voraus – auf Jahre hinaus. Entwickelt wurde es von einem internationalen Forschungsteam unter Leitung des European Molecule Biology Laboratory (EMBL) und des Deutschen Krebsforschungszentrums (DKFZ). Im Interview erklärt der Bioinformatiker Moritz Gerstung, wie die KI funktioniert, was sie kann – und warum sie nicht sofort in der Klinik eingesetzt wird.

Ursprünglich wollten wir nur Modelle für Krebserkrankungen entwickeln: Die Idee war, individuelle Risiken für verschiedene Krebsarten zu berechnen. Aber als vor einigen Jahren die ersten Large Language Models erschienen, die sehr diverse Fähigkeiten besitzen, sagten wir uns: Warum sollten wir unsere Modellierung auf Krebserkrankungen begrenzen? Also haben wir die allermeisten Krankheiten, die im Internationalen Krankheitenkatalog ICD-10 verzeichnet sind, mit in die KI aufgenommen. So kamen die mehr als 1000 Erkrankungen zusammen, zu jeder kann unsere KI nun eine individuelle Risikoprognose abgeben.

Nicht ganz. Unser Modell, Delphi-2M, ist ein ganz eigenes Modell für Diagnosen, man könnte es Large Diagnostic Model nennen. Es verarbeitet die Abfolge von Erkrankungen, die im Laufe des Lebens aufgetreten sind so, wie Sprachmodelle Wortfolgen verarbeiten. Aus der Reihenfolge der Diagnosen erkennt es Muster – ähnlich wie beim Erlernen grammatischer Strukturen in Texten.

Ein Sprachmodell geht Wort für Wort vor. Es schaut sich Wort für Wort an, und wenn es sich viele Folgen von Wörtern anschaut, dann wird es trainiert, die Logik einer Sprache zu erkennen und kann gewissermaßen selbst sprechen. Bei den medizinischen Daten und Angaben zum Lebensstil, mit dem wir unser Sprachmodell trainiert haben, ist das Prinzip ähnlich: Die KI schaut sich Diagnose für Diagnose an, die aufeinander folgen, und erkennt dann Muster und erlernt so etwas über womöglich kommende Diagnosen, also über womöglich eintretende Erkrankungen. Eine große Herausforderung war dabei die zeitliche Komponente: Bei den Wörtern spielt die Zeit keine Rolle, nur die Reihenfolge – bei den Krankheitsrisiken ist das anders. Hier mussten wir ein Modell entwickeln, dass nicht nur die Abfolge von Diagnosen, sondern auch zeitliche Zusammenhänge berücksichtigt und vorhersagt.

Prof. Dr. Moritz Gerstung leitet am Deutschen Krebsforschungszentrum (DKFZ) in Heidelberg die Abteilung Künstliche Intelligenz in der Onkologie und ist einer der Autoren der neuen Studie. Bild: Jutta Jung / DKFZ

Wir haben anhand von Daten aus der UK Biobank trainiert, von insgesamt 400.000 Personen. Die Daten umfassten natürlich die gestellten Diagnosen, aber auch Daten wie den Body Mass Index und den Alkohol- und Nikotinkonsum. Vereinfacht gesagt, hat die KI die Daten alle angeschaut und Muster darin erkannt. So hat die KI viele Dinge selbst erkannt, die heute in der Medizin zum Basiswissen gehören. Zum Beispiel, dass Rauchen mit einem erhöhten Risiko für Lungenkrebs einhergeht. Die KI hat es aber geschafft, dieses Risiko individuell zu berechnen in Bezug auf die Zeit. Aber es gibt natürlich immer auch die Gefahr von Verzerrungen, denn solch ein Modell ist nur so gut wie die zu Grunde liegenden Daten.

Die KI erkennt Muster, die aber nicht der Realität entsprechen, sondern durch die Eigenheiten des Datensatzes entstehen. Zum Beispiel wurden alle 400.000 Teilnehmer dieser Auswahl der UK Biobank im Alter zwischen 40 und 70 Jahren rekrutiert. Die KI hat daraus geschlossen, dass es praktisch unmöglich ist, vor dem 40. Lebensjahr zu sterben. Das stimmt natürlich nicht, und es ist für uns bis heute eine Herausforderung, solche Verzerrungen aufzuspüren und zu korrigieren.

Wir haben getestet, wie gut die Prognosen der KI sind, indem wir sie an weiteren 100.000 Personen, der UK Biobank, die das Modell noch nicht kannte, ausprobiert haben. Zum Beispiel haben wir der KI die Daten der Patientinnen und Patienten bis zum 60. Lebensjahr gegeben und sie dann – abhängig von den jeweiligen Diagnosen und dem Lebensstil – das Herzinfarkt-Risiko pro Jahr ausrechnen lassen. Das vom KI-Modell berechnete Risiko zum Beispiel für einen Herzinfarkt bei Männern lag im Alter zwischen 60 und 65 Jahren zwischen 4 von 10.000 und 100 pro 10.000, je nach bisheriger Diagnosegeschichte und Lebensstil. Wir haben diese individuellen Risiken dann verglichen mit den Daten von Patientinnen und Patienten – und das Risiko war fast genauso, wie es die Realität entsprach. Weiterhin haben wir das Modell an dänischen Registerdaten von 1,9 Millionen Personen getestet und gesehen, dass es mit kleinen Abstrichen auch über Landesgrenzen hinweg funktioniert. Das war die Feuerprobe – und die KI hat sie bestanden!

Bis das geschehen kann, gibt es noch ein paar Hürden. Für den medizinischen Einsatz gibt es – zu Recht – hohe Anforderungen. Eigentlich müssten wir die Richtigkeit der Risikoprognosen der KI nicht anhand von Daten aus der Vergangenheit bewerten, sondern besser anhand von in die Zukunft gerichteten Studien. Das dauert natürlich lange. Zweitens muss man zunächst schauen, ob das Modell auf breiter nationaler Bevölkerungsebene funktioniert. Heißt: Wenn wir das Modell in Deutschland anwenden wollen, sollten wir es idealerweise mit deutschen Gesundheitsdaten trainieren.

Hier tut sich zurzeit einiges, die Weichen sind in die richtige Richtung gestellt: Die Daten werden vereinheitlicht, es wird ein entsprechendes Register aufgebaut, womöglich liegen die Daten bald in ähnlich guter Form vor wie in Dänemark oder Großbritannien.

Daran arbeiten wir derzeit, das ist ein wichtiger Schritt, den wir gehen müssen. Wir wollen Blutwerte, detaillierten Lebensstil, und vielleicht sogar die Daten von Fitness-Trackern und anderes einfließen lassen. Denn je mehr Daten die KI verarbeiten kann, desto besser können natürlich auch die Prognosen werden.

Das muss natürlich alles vollkommen freiwillig sein und es gibt auch ein Recht auf Nichtwissen. Wir zeigen in unserer Arbeit das eine KI großes Potenzial hat und man könnte sich unterschiedliche Einsatzmöglichkeiten vorstellen. Zunächst könnte über individuelle Risiken und veränderbare Risikofaktoren aufgeklärt werden. Basierend hierauf können diagnostische Tests zur Abklärung durchgeführt werden oder auch die Teilnahme an Vorsorgeprogrammen geplant werden. Diese könnten bei Risikopatientinnen und -patienten früher oder engmaschiger durchgeführt werden.

Richtig. Wer z.B. sehr geringe Krankheitsrisiken hat, kann die entsprechende Vorsorgeuntersuchungen später oder in einem längeren Abstand durchführen lassen. Letztlich geht es darum, gezielter und individueller Vorsorge und Früherkennung zu betreiben. Das kann, wenn es gelingt, gleich auf doppelter Ebene helfen: Es kann die individuelle Gesundheit stärken – und es kann die Kosten im Gesundheitssystem an manchen Stellen senken.

KI-Modell prognostiziert Krankheitsrisiken Jahrzehnte im Voraus (DKFZ)

Artem Shmatko, Alexander Wolfgang Jung, Kumar Gaurav, Søren Brunak, Laust Mortensen, Ewan Birney, Tom Fitzgerald & Moritz Gerstung: Learning the natural history of human disease with generative transformers. Nature 2025

Leser:innenkommentare