Big Data am CERN

“So viele Daten wie Facebook”

Prof. Dr. Joachim Mnich gehört zum internationalen Team der Physiker, die das Higgs-Teilchen entdeckt haben. Bild: DESY

Big Data klingt nach einem Phänomen unserer Tage. Doch am CERN in Genf haben Wissenschaftler schon seit 20 Jahren mit riesigen Datenmengen zu tun. In unserer Big-Data-Serie sprachen wir mit dem Teilchenphysiker Joachim Mnich vom Deutschen Elektronen-Synchrotron über Petabytes, Daten-Müll und Grid-Computing

Experimente an großen Forschungsgeräten wie beispielsweise am größten Teilchenbeschleuniger der Welt, dem Large Hadron Collider (LHC) am Europäischen Kernforschungszentrum CERN in Genf, erzeugen unvorstellbar große Datenmengen, die gesammelt, analysiert und gegebenenfalls für längere Zeit gespeichert werden müssen. Das Management derartiger "Big Data" erfordert einen hohen Organisationsaufwand und spezielle Speichertechnologien. Als im Juli 2012 am CERN das so genannte Gottesteilchen gefunden wurde und somit der lang ersehnte Nachweis für die Existenz des Higgs-Boson gelungen war, waren dafür etliche hundert Petabyte analysiert worden - eine Größe, die für die meisten Menschen nicht vorstellbar ist: ein Petabyte ist eine 1 mit 15 Nullen.

Prof. Dr. Joachim Mnich gehört zum internationalen Team der Physiker, die das Higgs-Teilchen entdeckt haben. Er ist Direktor für Teilchen- und Astroteilchenphysik am Deutschen Elektronen-Synchrotron (DESY), einem Forschungszentrum der Helmholtz-Gemeinschaft. Wir sprachen mit ihm über große Daten am großen CERN.

Mit welchen Datenmengen haben Sie es zu tun?

LHC-Experimente produzieren etwa 20 Petabyte Daten pro Jahr, das sind 20 Millionen Gigabyte. Von der Größenordnung her ist das vergleichbar mit dem weltweiten Datenaufkommen von Facebook oder YouTube. Die Daten aus den Experimenten durchlaufen verschiedene Auswertungsstufen, diese müssen wiederum abgelegt werden. Dann werden die Daten mit Simulationen verglichen, um sie bis ins Detail verstehen zu können.

Werten Sie wirklich alle Daten aus? Schauen Sie sich 20 Petabyte pro Jahr an?

Doch, das sind die Daten, die wir für die Analyse brauchen. Das ist ja schon eine Auswahl. Wir produzieren eigentlich viel, viel mehr Daten. Direkt nach jeder Kollision müssen wir entscheiden, ob wir diese Daten aufzeichnen und sie Teil dieser 20 Petabyte werden. Tatsächlich nutzen wir nur eine von drei Millionen Kollisionen.

Woher wissen Sie, dass Sie die richtige Kollision erwischt haben?

Das ist die große Kunst der LHC-Experimente. Speziell ausgeklügelte Verfahren, sogenannte Trigger, helfen bei der Auswahl. Zunächst gibt es ganz einfache Kriterien, die auf Hardwareebene mit schneller Elektronik gelöst werden. Dann sind große Rechenzentren direkt an die Experimente angeschlossen. Spezielle Software wertet jede einzelne Kollision aus und entscheidet, ob sie für eine weitere Auswertung in Betracht kommt oder nicht.

Und die Daten der anderen Kollisionen?

Die sind für immer verloren. Wir machen natürlich Cross Checks: Ab und zu heben wir Daten einer Kollision auf, die auf Softwareebene eigentlich aussortiert wurde. Somit stellen wir sicher, dass wir nichts Interessantes verpassen.

Das ist ja wie die Nadel im Heuhaufen!

Die zu finden wäre im Vergleich zum Nachweis des Higgs eine einfache Aufgabe.

Wo befinden sich die Daten? Wo werden sie analysiert?

Diese Datenmengen sind zu gigantisch für ein einzelnes Rechenzentrum. Das wussten wir schon vor 20 Jahren und haben uns dazu Gedanken gemacht. Daraus ist die Idee des Grid-Computing entstanden, bei dem die Daten weltweit verteilt werden. Das Rückgrat in Deutschland bilden die Rechenzentren der Helmholtz-Gemeinschaft - am Karlsruher Institut für Technologie, am Deutschen Elektronensynchrotron und an dem GSI Helmholtzzentrum für Schwerionenforschung. Plant ein Wissenschaftler eine Datenauswertung, so schickt er sein Analyseprogramm ins Grid. Das lässt dort rechnen, wo die Computer gerade nicht ausgelastet sind.

Speichern Sie Daten auf "Vorrat", weil Sie sie noch nicht auswerten können?

In gewisser Weise schon, vielleicht anders, als Sie meinen. Nach etwa zwei Jahren Betrieb pausiert der Beschleuniger. In diesem Jahr etwa läuft der LHC nicht. Wir arbeiten gerade an Verbesserungen, wechseln defekte Teile aus, eichen und kalibrieren die Detektoren, um den Analysen den letzten Schliff zu geben. Für diese, etwas ruhigere Zeit haben wir Daten für weniger dringliche Analysen "auf Vorrat" gespeichert, die nun ausgewertet werden. Prinzipiell aber macht das Speichern von Daten ohne Auswertung für uns keinen Sinn. Unsere Wissenschaft ist ein iterativer Prozess, das heißt wir brauchen die Auswertung, um das Experiment zu verbessern.

"Big Data" bedeutet für alle wissenschaftlichen Disziplinen eine enorme Veränderung, nur bei Ihnen scheint es nie anders gewesen zu sein. Einige Stimmen postulieren, dass "Big Data" die Wissenschaft umkrempeln wird. Vielleicht werden wir in Zukunft keine Modelle mehr brauchen, weil die Daten zu uns sprechen werden.

Würden die Daten einfach zu uns sprechen, hätten wir das Higgs niemals gefunden. Wir brauchten eine Idee, wonach wir suchen. Wir konnten auf Grundlage des Modells von Peter Higgs und Kollegen mit moderner Computertechnologie berechnen, wie sich ein Higgs im Detektor verhält. Unsere Daten passten zum Modell. Hätten wir die Daten so genommen, hätten wir vielleicht einen "Huckel" gesehen, aber nicht gewusst, was es ist. Nach 50 Jahren können wir sagen, das Standardmodell der Elementarphysik stimmt - soweit. Es beschreibt alle Phänomene, die wir nachmessen können. Und das sind vier Prozent unseres Universums. Für die anderen 96 Prozent haben wir neue Modelle. Welches richtig ist, wird sich zeigen. Modelle sind unverzichtbar. Nur so bekommen wir eine Ahnung davon, wie die Nadel aussehen könnte, bevor wir den Heuhaufen durchsuchen.

"Big Data", "Grid-Computing", Simulation. Liegt die Zukunft der Wissenschaft in den Händen der Informatiker und Statistiker?

Tatsächlich werden Informatiker und Statistiker für die Wissenschaft immer wichtiger: Die Ansprüche an statistische Auswertungen werden immer höher und die Netzwerkverbindungen immer komplizierter. Die Trends in der Wissenschaft aber werden auch in Zukunft nicht von den Informatikern und Statistikern bestimmt werden.

Die Open Science-Idee, die Bürger in die wissenschaftliche Arbeit mit einzubeziehen, ist ein Riesentrend. Wie sinnvoll ist das in Ihrem Bereich? Ist es sinnvoll, diese enorme Menge an Daten allen zur Verfügung zu stellen?

Niemand könnte damit etwas anfangen. Selbst unseren Studenten geben wir aufbereitete Daten, so dass in den Übungen sinnvolle Analysen herauskommen. Es hat schon seinen Grund, warum an einem Projekt wie dem Higgs mehrere tausende Wissenschaftler zusammenarbeiten. Die Auswertung der Daten ist hochkomplex. Selbstverständlich veröffentlichen wir regelmäßig unsere Resultate, für alle zugänglich.

Das heißt wir sollten Ihnen vertrauen, dass Sie das Richtige tun.

Ja, das ist Grundvoraussetzung für uns Wissenschaftler. Die Wahrscheinlichkeit, dass wir uns täuschen, beträgt beim Higgs-Teilchen eins zu zwei Millionen. Dem kann man vertrauen.

Artikelserie zur Digitalisierung

Wie beeinflusst die zunehmende Digitalisierung unser Leben? Erledigen vernetzte Kühlschränke bald unsere Einkäufe? Werden wir gesünder durch digitale Pulsmesser und elektronische Kalorienzähler? Oder bequemer und kränker durch selbstfahrende Autos? Und wohin führen die offensichtlichen Sicherheitslücken im weltweiten Netz?


Diese und andere Fragen beantworten wir in unserer Online-Serie zum Thema „Big Data und der Einfluss der Digitalisierung auf unser Leben“. Einmal im Monat veröffentlichen wir an dieser Stelle begleitend zum diesjährigen Wissenschaftsjahr „Die digitale Gesellschaft“ einen Beitrag zu Themen, die uns alle angehen. Was denken Sie über das Thema? Diskutieren Sie mit.

20.06.2014 , Interview: Susann Beetz
Leserkommentare, diskutieren Sie mit (0)
Keine Kommentare gefunden!
Kommentar hinzufügen

Ihr Kommentar wird nach dem Absenden durch unsere Redaktion geprüft und dann freigegeben, wir bitten um etwas Geduld. Bitte beachten Sie auch unsere Kommentarregeln.

Your comment will be checked by our editors after sending and then released, we ask you for a little patience.

Druck-Version