Interview
„Der Flaschenhals, durch den alle Teams durchmüssen“

Dagmar Kainmüller ist Leiterin der Arbeitsgruppe „Integrative Imaging Data Sciences“ am Max Delbrück Center und eine der Initiator:innen der Helmholtz Foundation Model Initiative. Bild: Pablo Castagnola/MDC
Vor zwei Jahren startete die Helmholtz Foundation Model Initiative (HFMI), mit der die Gemeinschaft KI-Projekte zur Bearbeitung enorm großer Datenmengen fördert. Die KI-Expertin Dagmar Kainmueller zieht im Interview ein Zwischenfazit – auch zu ihrem eigenen HFMI-Projekt AqQua.
Frau Kainmueller, vor zwei Jahren startete die Förderung der ersten Projekte im Rahmen der Helmholtz Foundation Model Initiative (HFMI). Wie lautet Ihr Zwischenfazit?
Aus meiner Sicht ist die HFMI ein riesiger Erfolg. Wir haben in relativ kurzer Zeit eine hochmotivierte interdisziplinäre Community mit einer extrem steilen Lernkurve aufgebaut. Die so gewonnene Expertise ist unglaublich wertvoll und wird bleiben, auch nach Ende der Projektlaufzeit. Und sie hat international große Sichtbarkeit erlangt.
Inwiefern?
Ein Beispiel ist der Helmholtz-ELLIS Workshop, den wir im Frühjahr 2025 in Berlin organisiert haben. ELLIS steht für „European Laboratory for Learning and Intelligent Systems“ und ist sozusagen das Flaggschiff unter den europäischen KI-Forschungsnetzwerken. Das Event war sehr produktiv und hat die unterschiedlichsten Disziplinen aus der Wissenschaft mit führenden KI-Forschenden und hochrangigen Speakern von Global Playern wie Meta und Microsoft Research zusammengebracht. Außerdem hat die Europäische Kommission die HFMI als Case Study zitiert und verwendet uns als Referenz für ihre eigenen Aktivitäten im Bereich „Artificial Intelligence (AI) in Science“. Im Juni halten wir gemeinsam einen Workshop in Brüssel mit neu geförderten EU-Pilotprojekten ab. Es gibt großes Interesse an unseren Erfahrungen und Learnings.
Wie ist der Stand bei den HFMI-Forschungsprojekten?
Die vier von Beginn an geförderten Projekte haben weitgehend ihre Datensätze zusammengestellt, erste Modelle daran trainiert und arbeiten derzeit an deren Testung und Verfeinerung. Ein besonders weit vorangeschrittenes Beispiel ist das „Human Radiome Project“ (THRP), das ein Foundation Model zur Analyse medizinischer Bilddaten aus MRT- und CT-Untersuchungen entwickelt. Das Team hat inzwischen rund 3,7 Millionen radiologische 3D-Bilder gesammelt, kuratiert, harmonisiert und Modelle darauf trainiert. Allein die Zusammenstellung und Aufbereitung der Bilddaten ist eine gigantische Leistung. Das Team hat so das größte Dataset von medizinischen 3D-Bilddaten geschaffen, auf dem je ein Foundation Model trainiert wurde. Das daran trainierte Modell arbeitet bei der Bilderkennung bereits mit hochkompetitiver Genauigkeit. Demnächst wird das Team sein „Flagship Paper“ – also seine Ergebnisse gebündelt – veröffentlichen und das Modell dann der User Community zugänglich machen. Und die wartet schon darauf.
Was war bislang die größte Herausforderung bei den Projekten?
Die große Challenge ist tatsächlich bei den meisten Vorhaben sehr ähnlich. Nämlich das Sammeln und Aufbereiten von unzähligen Daten. Denn für jedes Foundation Model braucht man erstmal einen sehr großen, harmonisierten und KI-geeigneten Datensatz. Egal ob medizinische Bilddaten wie bei THRP, Wetterdaten wie beim Projekt HClimRep oder Planktonbilddaten wie in unserem Projekt AqQua – die Erstellung KI-geeigneter Datensätze ist der Flaschenhals, durch den alle Teams durchmüssen. Auch deshalb ist der gemeinsame Austausch in unserer Synergy Unit so entscheidend.
Was genau ist Sinn und Zweck der Synergy Unit?
Einfach gesprochen: Die Synergy Unit macht die Initiative insgesamt größer und effektiver als die Einzelprojekte. Hier haben wir eine Community mit Mitgliedern aus allen Vorhaben aufgebaut, die sich gegenseitig hilft und auch helfen kann, weil wir alle vor ähnlichen Problemen stehen. Gemeinsam kommen wir auf neue Ideen, die dann wiederum in die Einzelprojekte zurückgetragen werden. Die Stimmung in der HFMI-Community ist wirklich gut. Wir arbeiten effektiv, zielorientiert und sehr „down to earth“ wie man so schön sagt. Bodenständig. Außerdem entstehen in der Synergy Unit neue Outreach-Aktivitäten, die unsere Expertise international sichtbar machen, wie der Helmholtz-ELLIS Workshop. Für Anfang 2027 planen wir gerade einen Workshop gemeinsam mit CIFAR, dem Canadian Institute for Advanced Research, zu Self-Improving Discovery Systems in AI for Science, das wird ein extrem spannendes Event. Und nicht zuletzt haben drei der HFMI-Projekte gemeinsam mit der Synergy Unit einen großen Compute Grant eingeworben, der ihnen Rechenzeit auf Europas schnellstem Supercomputer Jupiter im Forschungszentrum Jülich verschafft, um KI-Methodik auf Basis von breit gefächerten Use Cases aus unterschiedlichen wissenschaftlichen Disziplinen effektiv weiterzuentwickeln.
Wie sind Sie selbst das große initiale Flaschenhalsproblem der Datensatzbearbeitung angegangen? Zum Beispiel in Ihrem Projekt AqQua?
Bei AqQua wollen wir ja Milliarden von Planktonbildern aus unterschiedlichsten Quellen zugänglich machen und mithilfe eines Foundation Models auswerten, um globale Aussagen zu Kohlenstofftransport, Artenzusammensetzung und Zustand des Planktons zu machen. Zunächst haben wir an die 1.000 Labore und Institute weltweit angeschrieben und um Kollaboration gebeten. Gerechnet haben wir mit 3 Milliarden Bildern, inzwischen sind wir schon bei 5 Milliarden. Diese riesigen Datenmengen muss man dann erstmal zu uns übertragen, ohne dass an der Quelle die Infrastruktur zusammenbricht. Dafür waren dann einige individuelle Lösungen nötig. Dann fängt die eigentliche Arbeit erst an. Die Bilder sind ja nach unterschiedlichen Standards angefertigt und mit Metadaten versehen worden, es gibt eine Bandbreite verschiedenster Formate. Hier mussten wir überhaupt erstmal ein einheitliches Format einschließlich Metadaten-Standard definieren und die Bilder kuratieren und harmonisieren. Danach folgen dann noch viele zusätzliche technische Schritte bis die Daten dann wirklich auch AI-ready, also für das Foundation Model konsumierbar sind.
Wo stehen Sie aktuell in Ihrem AqQua-Projekt?
Wir haben nach aktuellem Stand 3,8 Milliarden Bilder AI-ready. Die restlichen Bilder kommen dann bald hinzu, so dass wir sehr bald unsere erste Version des finalen Datasets haben werden. Dann startet auch das Training des Foundation Models, für das wir parallel natürlich schon das Trainingskonzept entwerfen. Gleichzeitig bauen wir schon jetzt die Infrastruktur für unser finales Produkt auf: Ein Tool, das kontinuierlich und global Planktonbilddaten einsammelt, daraus automatisierte Profile zu Artenvielfalt, Zustand und Kohlenstoffflüssen erstellt und dann auf globale Karten extrapoliert. Unser Ziel ist es, gemeinsam mit der globalen Plankton-Community und den Herstellern der bildgebenden Geräte einen internationalen Standard zu schaffen, der es ermöglicht, Plankton sehr viel genauer und engmaschiger zu kartographieren als bislang – frei zugänglich nicht nur für die Meeres- und Klimaforschungscommunity, sondern auch für politische Entscheidungsträger in Anbetracht des Klimawandels.
Gibt es auch einen Mehrwert von HFMI für Helmholtz-Zentren, die nicht an den Projekten beteiligt sind?
Auf jeden Fall. Vor allem natürlich auf wissenschaftlicher Ebene, denn die Mission der HFMI ist nicht nur, neue KIs zu bauen, sondern auch, diese nachhaltig für alle Forschenden nutzbar zu machen. Aber es gibt auch einen signifikanten Mehrwert für Vernetzung und Zusammenarbeit in der Helmholtz-Gemeinschaft, auch auf organisatorischer Seite. Nur zwei Beispiele aus dieser vielleicht weniger offensichtlichen Kategorie. Weil wir gigantische Datenmengen aus verschiedensten Quellen nutzen müssen, stellen sich auch rechtliche Fragen. Sind die Daten nicht öffentlich zugänglich, braucht es mit jeder Partei einen rechtlich bindenden Vertrag zum Datenaustausch – ein Data Sharing Agreement, das die jeweiligen Rechtsabteilungen der beteiligten Institutionen unterschreiben müssen. Wir haben es geschafft, dass sich vier Helmholtz-Zentren auf eine einheitliche Vorlage geeinigt haben. Zuvor hat es sowas nicht gegeben. Weil es immer nur um relativ kleine Datensätze ging, wurde meistens ein individueller Vertrag aufgesetzt. Das ist in so einer Größenordnung wie bei HFMI kaum zu leisten. Jetzt gibt es ein Template und einen Prozess, der als Vorbild für ähnlich gelagerte Fälle dienen kann.
Und das zweite Beispiel?
In den Projekten arbeiten mehrere Helmholtz-Zentren jeweils gemeinsam an einem großen Thema. Dafür gibt es wiezum Beispiel in unserem Projekt AqQua ein Kernteam aus etwa 10 Personen, die zentrenübergreifend Lösungen entwickeln. Das Ganze ist hocheffizient. Die Gruppe arbeitet nach industriellen Branchenstandards zusammen. Das ist nicht die „normale” Arbeitsweise von PhD-Studenten oder PostDocs in der Wissenschaft. Dort ist immer noch eher die Norm, dass man recht unabhängig an einem eigenen Projekt tüftelt. Am Ende steht dann üblicherweise eine Publikation, bei der man als „sole first author“ die Lorbeeren erntet. Für Großprojekte über viele Zentren hinweg ist so eine Arbeitsweise kontraproduktiv. Hier brauchen wir neue Standards in der Wissenschaft. Unsere Kernteams können, denke ich, ein gutes Vorbild sein, wie Helmholtz sein Potential für einen Mehrwert über die 18 einzelnen Zentren hinweg noch besser ausschöpfen kann.
Leser:innenkommentare