Ordnung in der Datenflut
Moderne Forschung erzeugt gewaltige Datenmengen. Um daraus Wissen entstehen zu lassen, nutzen Forscher immer mehr künstliche Intelligenz und maschinelles Lernen.
Künstliche Intelligenz schaut Städten beim Wachsen zu
Das Jahr 2007 markiert einen Wendepunkt in der Geschichte der Menschheit. Zum ersten Mal lebten mehr Menschen in der Stadt als auf dem Land. "Neben dem Klimawandel ist die Urbanisierung der große Megatrend des globalen Wandels", sagt Richard Bamler, Direktor des Instituts für Methodik der Fernerkundung am DLR Earth Observation Center in Oberpfaffenhofen und Professor für Methodik der Fernerkundung an der Technischen Universität München. "Gerade in den Schwellenländern ist die Migrationsbewegung vom Land in die Stadt so stark und vollzieht sich so schnell, dass es von vielen Städten dieser Welt überhaupt keine verlässlichen Daten für Planung und Management gibt. Bei den informellen Siedlungen, also den Ankunftsstätten der Landbewohner, laufen die Bevölkerungszahlen in verschiedenen Studien teilweise sogar um den Faktor drei auseinander."
Um Stadtgeographen eine verlässliche Datenbasis an die Hand zu geben, hat sich das DLR ein großes Ziel gesteckt: die Kartierung aller Städte der Erde. Landbedeckungsklassifizierung nennt sich diese Aufgabe. Als Basis dienen die Bilder verschiedenster Satelliten, beispielsweise jene des europäischen Erdbeobachtungsprogramms Copernicus und der deutschen Radarmissionen TerraSAR-X und TanDEM-X. Auf den Bildern werden Felder und Wälder aber auch Straßen, Stadtbezirke mit Wohnhäusern, Büroviertel oder Slums identifiziert. "Diese Aufgabe lässt sich mathematisch oft nicht ausreichend beschreiben, vor allem wenn Sie die verschiedenen Kulturkreise der Erde berücksichtigen wollen. Deshalb setzen wir auf lernende Verfahren."
Wurden bisher verschiedene Parameter wie Anzahl und mittlere Größe der Häuser oder das Material der Dächer betrachtet, setzen Bamler und seine Kollegen heute auf Werkzeuge aus dem Bereich der künstlichen Intelligenz. (siehe Kasten) "Für die Erdbeobachtung hat vor allem das maschinelle Lernen sehr großes Potenzial," erklärt Richard Bamler. Dafür haben die Forscher ein Programm entwickelt und mit zehntausenden Satellitenbildern, aber auch Bildern aus sozialen Netzwerken, trainiert. "Wir haben dem Algorithmus gesagt: Bau dir anhand dieser Beispiele ein Modell von etwas, das mathematisch gar nicht beschrieben werden kann. Auf diese Weise hat das Programm gelernt, Slums, Wohngebiete oder Bürogebäude voneinander zu unterscheiden und zwar wesentlich treffsicherer, als auf die herkömmliche Art," sagt der Institutsleiter.
Wie wird aber ein Computerprogramm trainiert, verschiedene Objekte zu erkennen? Dafür gibt es zwei Möglichkeiten: Beim sogenannten überwachten maschinellen Lernen wird dem Programm gesagt, ob sich im Datensatz das gesuchte Objekt - zum Beispiel ein Flugplatz - im Satellitenbild befindet oder nicht. Auf diese Weise schafft sich der Algorithmus ein Modell mit den Eigenschaften, die am wahrscheinlichsten auf einen Flugplatz deuten. Mit genügend vielen Beispielen - oft wird mit Millionen Fotos trainiert - ist das Programm anschließend in der Lage, auch auf völlig unbekannten Satellitenbildern Flugplätze zu erkennen. Sollen hingegen unbekannte Strukturen gefunden werden, bietet sich das unüberwachte Lernen an. Auch hier wird der Algorithmus trainiert. Es fehlt allerdings die Information, welche Objekte sich im Datensatz verbergen. Das Programm sucht nach Mustern in der Datenflut und erstellt sich eigene Kategorien. Nach der Trainingsphase ist es in der Lage, auch unbekannte Daten zu klassifizieren.
Maschinelles Lernen als Werkzeug für Bioinformatiker
"KI und maschinelles Lernen, insbesondere das Deep Learning sind in den letzten fünf bis zehn Jahren sehr populär geworden. Im Zeitalter von Big Data produzieren wir enorm große Datensätze und haben Computer mit entsprechender Rechenkraft, sodass wir wirklich neue Erkenntnisse und Vorhersagen aus diesen Daten ziehen können," sagt Fabian Theis, Direktor des Instituts für Computational Biology am Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (HMGU) und Professor für Mathematische Modellierung biologischer Systeme an der dortigen TU. Theis und seine Kollegen untersuchen auf dem Niveau einer einzelnen Zelle, welche Gene aktiv sind und wie die genetischen Informationen zelltypspezifisch in Proteine umgesetzt werden. "Wenn wir tausende Einzelzellprofile auswerten, dann wissen wir erst einmal nicht, um welche Zellen es sich handelt. Um die unterschiedlichen Genexpressionen zu sortieren, greifen wir auf Methoden des maschinellen Lernens zurück. Diese gruppieren die Messwerte in sogenannte Cluster, die wir dann Zelltypen zuordnen können," erklärt Fabian Theis.
Methoden des maschinellen Lernens sind nicht nur für die Grundlagenforschung von großem Wert. Sie haben auch einen handfesten medizinischen Nutzen. "In einem unserer Forschungsprojekte", berichtet Theis, "sind wir an der Risikoklassifizierung bei Typ 1 Diabetes interessiert. Dafür haben wir Algorithmen entwickelt, die DNA-Profile von Kindern nach bestimmten Kombinationen verschiedener Genmarker durchsuchen." Trainiert haben Theis und seine Kollegen das Programm mit Datensätzen von Kindern aus Risikofamilien die zum Teil noch keinen Diabetes entwickelt hatten, zum Teil aber auch prädiabetisch oder schon diabetisch waren. "Auf diese Weise hat der Algorithmus gelernt, anhand von Genexpressionen in der Zellprobe das Risiko eines Diabetes Typ 1 zu erkennen."
Weitere Beispiele aus der Forschung
Hochenergie-Physik
Im weltweit leistungsstärksten Teilchenbeschleuniger - dem Large Hadron Collider (LHC) - am Europäischen Kernforschungszentrum CERN in Genf prallen Protonenstrahlen mit hoher Geschwindigkeit aufeinander. Dabei entstehen Teilchenschauer, von denen sich die Wissenschaftler tiefe Einblicke in den Aufbau der Materie versprechen. Riesige Detektoren sind notwendig, um die Teilchenschauer aufzuspüren. Sie erzeugen ungeheure Datenmengen. Auch am Deutschen Elektronen-Synchrotron DESY werden die Experimente ausgewertet. Um die entstandenen Teilchen einzuordnen, setzen die Forscher auf künstliche Intelligenz. Dazu werden unter anderem hochkomplexe, neuronale Netze mit hunderten von Schichten und hunderttausenden von Parametern genutzt, die zuvor mit Datensätzen von Milliarden simulierter Kollisionen trainiert wurden.
Krebsforschung
Welche Stoffwechselvorgänge finden in einer Zelle statt? Welche Gene werden abgelesen? Welche Proteine gebildet? Umfassende Daten aus dem menschlichen Körper zu erfassen, ist heute dank modernster Technik eine Sache von wenigen Tagen. Diese riesigen Datenmengen auszuwerten, stellt Wissenschaftler allerdings vor eine große Herausforderung. Am Deutschen Krebsforschungszentrum (DKFZ) setzen Forscher dabei auf Methoden des maschinellen Lernens. Dadurch wollen sie nicht nur Mechanismen innerhalb von Zellen aufspüren, die zur Entstehung von Krebserkrankungen führen. Sie wollen auch Verfahren entwickeln, die eine präzise Diagnose sowie eine gezielte und personalisierte Behandlung ermöglichen.
Seismologie
Weltweit zeichnen tausende von Messstationen kleinste Bewegungen des Untergrundes mit einem hohen Abtastintervall auf. Allein am Helmholtz-Zentrum Potsdam - Deutsches GeoForschungsZentrum (GFZ) sind die Daten von über 3.500 Stationen archiviert - insgesamt rund 100 Terabyte. Jährlich kommen fast 10 Terabyte hinzu. Systeme und Initiativen wie EPOS-IP, EUDAT und EOSC-Hub sorgen für eine Vernetzung mit anderen europäischen und internationalen Datenzentren. Bei der Auswertung setzt das GFZ auf Techniken des maschinellen Lernens. So werden beispielsweise Datenströme kategorisiert und für ausgewählte seismologische Anwendungen, wie etwa die Kalibrierung von Gleichungen zur Berechnung von Erdbebenerschütterungen, selektiert.
Was ist Intelligenz und wie funktioniert der menschliche Verstand? Bisher gibt es verschiedene Theorien aber keine abschließende Antwort auf diese Fragen. Deshalb ist es auch schwierig, künstliche Intelligenz (KI) zu definieren. Einig ist sich die Wissenschaft insofern, als dass die Fähigkeit zu Lernen eine Grundvoraussetzung für KI-Systeme ist. Große Rechenleistungen und große Datenmengen ermöglichen die Anwendung von KI. Zwei unterschiedliche Herangehensweisen werden unterschieden: die schwache KI und die starke KI.
Die schwache KI nutzt Computer und Algorithmen, um die kognitiven Prozesse des Menschen nachzuahmen. Muster in Bildern erkennen (Computer Vision), das gesprochene Wort verstehen oder Text in Sprache verwandeln (Computerlinguistik) sind populäre Aufgabenfelder der schwachen KI. Seit einigen Jahren halten diese Anwendungen zunehmend Einzug in Labore, Werkhallen und Wohnzimmer. Fortschritte in der Kognitionsforschung haben dabei geholfen, diese verfahren zu entwickeln.
Die starke KI versucht hingegen, Maschinen selbstständiges Denken und Verstehen beizubringen. Auf diesem Gebiet steht die Wissenschaft noch relativ am Anfang.
Die Organisation des menschlichen Gehirns dient als Vorbild für künstliche neuronale Netze (KNN), um Informationen zu verarbeiten. KNN bestehen in der Regel aus mehreren Schichten von Neuronen, den sogenannten Layern. Die einzelnen Neuronen - auch Units genannt - sind miteinander verbunden. Die Stärke dieser Bindung wird durch das sogenannte Gewicht ausgedrückt. Dieses legt fest, ob ein Neuron sein Gegenüber in der nachfolgenden Schicht bestärkt, hemmt oder keinen Einfluss hat. Das Gewicht ändert sich während des Lernens und speichert damit das erworbene Wissen.
Als Big Data werden Datenmengen bezeichnet, die sich mit klassischen Methoden nur schwer oder gar nicht mehr sinnvoll verarbeiten lassen. Das kann nicht nur an der Menge, sondern auch an der Komplexität, der Schnelllebigkeit oder der Struktur der Daten liegen. Nicht nur die Daten selbst, sondern auch die Technologien und Ansätze, die sich mit der Verarbeitung solcher Daten befassen, werden häufig als Big Data bezeichnet.
Maschinelles Lernen (Machine Learning) ist ein Ansatz, der auf die Verfügbarkeit großer Datenmengen (Big Data) baut. Dabei werden einem Computerprogramm unzählige Datensätze vorgelegt. Nach einer Trainingsphase ist es in der Lage, die erlernten Muster auch in neuen Datensätzen zu finden und einzuordnen.
Deep Learning ist eine Variante des maschinellen Lernens, die mehrschichtige künstliche neuronale Netze nutzt. Dadurch wird der Lernerfolg erhöht. Einen ihrer ersten Einsätze hatten Deep Learning Algorithmen bei den Google-X-Labs wo sie anhand von 10 Millionen Bildern herausfanden, dass im Internet vor allem menschliche Gesichter, menschliche Körper und Katzen abgebildet sind.
Als Forschungsorganisation, die sich zum Ziel gesetzt hat große und aktuelle gesellschaftliche Herausforderungen zu adressieren, hat die Helmholtz-Gemeinschaft in den letzten Jahrzehnten ein enormes Kompetenzportfolio im Bereich Information & Data Science aufgebaut.
Leser:innenkommentare