Brücken schlagen

Wie die Mathematik das maschinelle Lernen voranbringt

Bild: Marta Mayer / Desy

Ein Gespräch mit Martin Burger, Leiter der Arbeitsgruppe Computional Imaging bei DESY und Professor für Mathematik an der Universität Hamburg. 

Maschinelles Lernen (ML) verändert Wissenschaft und Gesellschaft – von Sprachmodellen und Klimasimulationen bis hin zur Krebsdiagnostik.Doch obwohl diese Systeme von Daten und Rechenleistung angetrieben werden, beruhen sie auf einem mathematischen Fundament. Konzepte wie Gradientenabstieg, stochastische Optimierung, Regularisierung und die Theorie der Generalisierung sind keine bloßen akademischen Abstraktionen – sie bilden das Fundament vieler Methoden, die in modernen Anwendungen des maschinellen Lernens zum Einsatz kommen.

Die Conference on Mathematics of Machine Learning 2025 rückt dieses Fundament ins Zentrum. Sie bringt Forscherinnen und Forscher aus Theorie und Praxis zusammen, um zu untersuchen, wie mathematische Werkzeuge aus Gebieten wie Optimierung, Geometrie, Wahrscheinlichkeitstheorie und Analyse dazu beitragen können, Systeme des maschinellen Lernens zu erklären, zu steuern und zu verbessern.

Um das Ziel der Konferenz und die zentralen Fragestellungen besser zu verstehen, haben wir Martin Burger, Leiter der Helmholtz Imaging Research Unit am DESY und einer der Organisatoren der Veranstaltung, interviewt. Wir baten Martin, über die Ziele der Konferenz, die Entwicklung von Theorie und Praxis im Bereich ML sowie über seine persönliche Motivation zu sprechen und die mathematischen Tiefen dieses sich rasant entwickelnden Forschungsfeldes zu erkunden.

Vor vier Jahren fand bereits eine erste Ausgabe dieser Konferenz mit einigen der heutigen Organisator:innen statt; damals unter schwierigen Bedingungen aufgrund der COVID-Pandemie. Mit der zweiten Ausgabe und möglichen zukünftigen Veranstaltungen möchten wir eine regelmäßig stattfindende Konferenz und die erste dieser Art in Deutschland etablieren und sie zugleich zu einem führenden Event auf internationaler Ebene machen.

Die Antwort darauf könnte zweigeteilt ausfallen: Aus einer pessimistischen Perspektive würde ich sagen, dass viele aktuelle ML-Systeme in der Praxis eine Vielzahl von technisch konstruierten Komponenten und Trial-and-Error-Lösungen enthalten. Ihr Erfolg basiert häufig einfach auf der Verfügbarkeit enormer Rechenleistung und großer Datenmengen.

Aus einer optimistischen Perspektive hingegen würde ich sagen, dass alle heutigen praktischen Anwendungen des maschinellen Lernens auf tiefgreifenden mathematischen Entwicklungen beruhen und dass die Zeitspanne zwischen theoretischem Fortschritt und praktischer Umsetzung relativ kurz ist. Das zeigt sich deutlich bei vielen gefeierten generativen Modellen, die eng mit Entwicklungen im Bereich des optimalen Transports und der Theorie stochastischer Diffusionsprozesse verknüpft sind.

Im Grunde basiert das gesamte Feld auf mathematischen Grundlagen – viele davon wurden bereits vor Jahrzehnten entwickelt, mussten aber auf große Datensätze und ausreichende Rechenleistung warten, um zur Anwendung zu kommen. Der Gradientenabstieg und seine stochastischen Varianten, die heute zum Trainieren von Modellen verwendet werden, wurden in den 1960er- und 70er-Jahren entwickelt und analysiert, und in den darauffolgenden Jahrzehnten zahlreich weiterentwickelt . Automatische Differenzierung, die heute ein fundamentales Werkzeug darstellt, machte ihre größten Fortschritte in den 1990er- und frühen 2000er-Jahren. Es gibt zudem einige Beispiele, bei denen mathematische Einsichten bestehende Modelle im Nachhinein verbessert haben – etwa beim kontradiktorischen Lernen, das Modelle robuster gegenüber gezielten Angriffen macht.

Eine der zentralen offenen Fragen im maschinellen Lernen ist seit jeher die (fehlende) Zuverlässigkeit von ML-Systemen, was etwa zu Phänomenen wie Halluzinationen führt. Ein weiteres Thema ist die mangelnde Effizienz, die in tiefen neuronalen Netzen weiterhin besteht. Vergleicht man etwa ein ML-Modell mit dem menschlichen Gehirn, dann ist der Kohlenstoff- und Wasserverbrauch heutiger Modelle für vergleichbare Aufgaben absurd hoch. Das deutet darauf hin, dass es fundamental andere Modelle mit wesentlich besserer Leistungsfähigkeit geben könnte, die künftig entwickelt und erforscht werden sollten.

Ein teilweise neues Feld ergibt sich aus dem Verständnis von Transformer-Architekturen und den darin eingebetteten sogenannten Aufmerksamkeitsmechanismen. Daraus ergeben sich neue Herausforderungen auf dem Gebiet der mathematischen Optimierung, bei Teilchensystemen, partiellen Differentialgleichungen und sogar in der Theorie dynamischer Systeme. Generative Modelle treiben aktuell Fortschritte in mathematischen Forschungsbereichen wie stochastischer Steuerung, großskaliger statistischer Inferenz und inversen Problemen voran. Altbekannte Themen wie Generalisierung oder Optimierungsaspekte beim Training großer neuronaler Netze beschäftigen Mathematiker:innen seit Jahrzehnten.

Es gibt immer noch Bereiche, in denen theoretische Ergebnisse nur teilweise erklären können, was in der Praxis beobachtet wird. Zum Beispiel sind Schätzungen für Generalisierungsfehler oft weit von der Realität entfernt und erklären die beobachteten Effekte nicht ausreichend. Auch die Konvergenz, die beim Training tiefer neuronaler Netze auftritt, lässt sich theoretisch bislang nicht umfassend absichern. Andererseits war das maschinelle Lernen bislang stets offen für neue theoretische Entwicklungen und hat sie bei vielversprechendem Potenzial auch schnell in die Praxis übernommen. Ob diese Offenheit in Zukunft erhalten bleibt, ist angesichts der zunehmenden Reife von KI-Produkten und den enormen Investitionen, die dahinterstehen, ungewiss.

Ich hoffe, dass die Teilnehmenden auf der einen Seite viele neue Einsichten in mathematische Zugänge zum maschinellen Lernen gewinnen und auf der anderen Seite insbesondere die Theoretiker:innen viele anregende Forschungsfragen für ihre eigene Arbeit mitnehmen.

Ich bin fest davon überzeugt, dass technologischer Fortschritt in diesem Bereich ein tiefes theoretisches Verständnis erfordert – und aktuelle Fortschritte basieren tatsächlich auf fundamentalen mathematischen Fragen, die in den letzten Jahrzehnten gelöst wurden. Darüber hinaus kann ein kritischer Blick aus der Mathematik helfen, Probleme in großen ML-Modellen aufzuzeigen, die Entwickler:innen entweder nicht wahrnehmen oder lieber unter den Teppich kehren würden. Und ganz persönlich: ich bin vor über zwanzig Jahren durch vielfältige enge Verbindungen zu meinem eigentlichen Forschungsgebiet – den inversen Problemen – in dieses Feld hineingewachsen.

Das Interview wurde vom Team von Helmholtz Imaging geführt. Das ursprüngliche Gespräch fand auf Englisch statt und ist in der Originalversion auf der Website von Helmholtz Imaging veröffentlicht.

Mit dem fortschreitenden Ausbau von Technologien im Bereich des maschinellen Lernens wird das Verständnis ihrer theoretischen Grundlagen immer wichtiger. Die Conference on Mathematics of Machine Learning 2025 verdeutlicht, wie mathematische Forschung zur Entwicklung zuverlässigerer, effizienterer und besser interpretierbarer Systeme beiträgt.

Durch den Austausch zwischen theoretischen und angewandten Fachrichtungen schafft die Konferenz Raum für Reflexion über bestehendes Wissen, die Identifikation aktueller Grenzen und die Gestaltung zukünftiger Entwicklungen. Sie unterstreicht zugleich, dass interdisziplinäre Zusammenarbeit eine zentrale Voraussetzung für nachhaltigen Fortschritt ist.

Leser:innenkommentare