Virtual Cell
Ein digitaler Zwilling für die Medizin von morgen

Bild: KI-generiertes Bild (ChatGPT)
Helmholtz-Forschende tüfteln an einem präzisen und lernfähigen digitalen Abbild der Zelle - gespeist mit Millionen biologischer Daten und bereit für virtuelle Experimente.
Zellen sind die Bausteine des Lebens – winzig und unendlich komplex. Seit Jahrzehnten versuchen Forschende zu verstehen, wie sie arbeiten und miteinander kommunizieren. Und was schiefläuft, wenn Krankheiten entstehen. Doch der Blick ins Zellinnere blieb oft verschwommen. Wie bei einem Uhrwerk, das man durch eine Milchglasscheibe beobachtet. Das Projekt VirtualCell will das ändern. Ziel ist ein digitaler Zwilling der menschlichen Zelle: ein Modell, das Prozesse in Echtzeit simuliert – nicht für eine, sondern für Millionen Zellen.
Fabian Theis ist Leiter des Computational Health Centers sowie Direktor des Instituts für Computational Biology bei Helmholtz Munich und Leiter des Projektes. Er ist überzeugt: Die gewaltigen Datenmengen, die in der Biomedizin entstehen, bergen im Zeitalter von Künstlicher Intelligenz (KI) und maschinellem Lernen enorm viel Potenzial. Während das Human Genome Project (HGP) für die erste vollständige Entschlüsselung des menschlichen Genoms fast eineinhalb Jahrzehnte brauchte, von 1990 bis 2003, und knapp drei Milliarden US-Dollar verschlang, ist die Sequenzierung heute schneller, günstiger – und viel leistungsfähiger. Auch der Human Cell Atlas, an dem Theis beteiligt ist, ist ein gewaltiges Datenprojekt. Es bildet bereits knapp 60 Millionen menschliche und Mäusezellen ab, zeigt, welche Zelltypen im Körper existieren, wo sie vorkommen und welche Gene in welcher Zelle aktiv sind.
Mit VirtualCell wollen Theis und Expert:innen vom Max Delbrück Center, dem Forschungszentrum Jülich und vom Chiphersteller Nvidia noch weitergehen. Theis spricht von einem „multimodalen Grundlagenmodell“ – einem digitalen Zwilling der Zelle, der nicht nur Genomdaten verarbeitet, sondern beispielsweise auch Informationen über Eiweiße, räumliche Strukturen und andere Komponenten und Vorgänge in den Zellen. Dabei fließen verschiedene Informationsebenen ein - etwa das sogenannte Transkriptom: In Zellen gleichen Typs sind unterschiedliche Gene aktiv. Die DNA der Gene wird in RNA übersetzt (transkribiert). Durch die Analyse der RNA, die in der Zelle herumschwimmt, bekommen die Forschenden ein Bild von der Genaktivität. Oder die Lage der Zelle in einem Gewebe. So entsteht ein umfassendes Bild der Zelle und ihrer Umgebung. „Wenn wir mit VirtualCell diese erweiterte Analyse komplexer Zellprozesse und Interaktionen sichtbar machen können, würde unser Verständnis von Zellfunktionen und Krankheitsverläufen revolutioniert“, so Theis. „Multimodale Foundation-Modelle können die molekularen Zustände von Zellen viel genauer als bisher erfassen – über verschiedene Zelltypen und Bedingungen hinweg“, sagt Theis. Damit ließen sich umfassende und vernetzte Karten von Zellen, Genen und Geweben erstellen, die neue Einblicke in die Organisation und Funktion lebender Systeme ermöglichen.
Fabian Theis. Bild: Helmholtz / Till Budde
Das Projekt, das im Rahmen der Helmholtz Foundation Model Initiative über drei Jahre gefördert wird, beginnt mit der Optimierung eines bereits bestehenden Modells, an dem Theis beteiligt war: NicheFormer, ein KI-System, das mit über 110 Millionen Zellproben von Mensch und Maus trainiert wurde, um räumliche Muster in Geweben vorherzusagen. Es konnte bereits ohne aufwendige Mikroskopie Krankheitsmuster erkennen oder simulieren, wie Zellverbände auf Medikamente reagieren.
VirtualCell geht weiter als NicheFormer: Es verarbeitet eine größere Vielfalt an Daten, kann konkrete Zelltypen klassifizieren, verknüpft Zellverhalten mit räumlichen Strukturen und wird in der medizinischen Praxis breiter anwendbar sein. Es könnte in der Medizin neue Maßstäbe setzen. Denn die zelluläre Basis vieler Krankheiten – von Krebs bis zu Autoimmunstörungen – kann so verstanden werden. Ein Modell, das diese Prozesse realitätsnah simulieren kann, eröffnet enorme Chancen: „Medikamente lassen sich passgenauer entwickeln, Krankheitsverläufe präziser vorhersagen, Therapien maßschneidern“, erklärt Theis. Ähnlich wie Pilot:innen, die kritische Manöver risikofrei in einem Flugsimulator üben, könnten Forschende mit VirtualCell durchspielen, wie sich Zellen bei genetischen Veränderungen, unter Stress oder im Kontakt mit Wirkstoffen verhalten. Ohne Tierversuche, ohne Patientenrisiko.
Ein Teil der in VirtualCell eingespeisten Daten wird für Trainingszwecke zunächst maskiert. Bestimmte Details wie einzelne Gene oder Geneigenschaften werden also ausgeblendet, und das System soll sie aus dem Zusammenhang rekonstruieren. Durch unzählige Wiederholungen lernt es eigenständig und selbstüberwacht, diese Lücken zu schließen – und Zusammenhänge und Muster zu erkennen, die einem noch so gut geschulten menschlichen Auge entgehen würden. Später wird VirtualCell auf konkrete klinische Fragen angewandt, beispielsweise um einen Krankheitsverlauf vorherzusagen oder Biomarker für die personalisierte Medizin zu entwerfen.
„Vermutlich werden in der Zukunft viele große Forschungsfragen über Foundation Models gelöst. Wir von der Helmholtz-Gemeinschaft wollen vermeiden, dass diese Modelle und Daten ausschließlich in industrieller Hand liegen, wo die Intransparenz womöglich besonders groß ist“, sagt Theis. Deswegen werden, wie auch bei anderen HFMI-Projekten, alle Komponenten von VirtualCell – vom Code über die Trainingsdaten bis hin zu den Ergebnissen – der gesamten Forschungsgemeinschaft nach dem FAIR-Prinzip als Open-Source zur Verfügung gestellt.
VirtualCell ist der Versuch, das Unsichtbare sichtbar zu machen. Ein digitaler Zwilling, der nicht nur zeigt, was ist – sondern auch, was möglich wäre. Wenn das Projekt gelingt, könnte die virtuelle Zelle neue Wege eröffnen, um die Effekte molekularer Perturbationen präzise zu simulieren – mit dem Potenzial, Krankheitsmechanismen und Therapien grundlegend neu zu denken.
Was sind Foundation Models?
Foundation Models sind besonders leistungsfähige KI-Modelle, die auf sehr großen, vielfältigen Datensätzen trainiert werden. Sie bilden die Grundlage („foundation“) für viele verschiedene Aufgaben – ähnlich wie ein Schweizer Taschenmesser für die Datenanalyse. Statt für jede Aufgabe ein eigenes Modell zu bauen, wird ein Foundation Model mit so vielen Informationen gefüttert, dass es allgemeine Muster erkennt, beispielsweise wie Sprache funktioniert, wie Bilder aufgebaut sind oder wie Zellen sich verhalten. Diese Modelle lernen selbstständig, Ähnlichkeiten zu erkennen, Lücken zu füllen und Zusammenhänge zu erfassen – ganz ohne feste Vorgaben. Danach lassen sie sich für spezielle Fragen „feintunen“, etwa zur Vorhersage von Krankheitsverläufen, klimatischen Veränderungen oder Aspekten des globalen Kohlenstoffkreislaufs.
Leser:innenkommentare