Jump directly to the page contents

Künstliche Intelligenz

Ordnung in der Datenflut

Bild: Fotolia

Moderne Forschung erzeugt gewaltige Datenmengen. Um daraus Wissen entstehen zu lassen, nutzen Forscher immer mehr künstliche Intelligenz und maschinelles Lernen.

Künstliche Intelligenz schaut Städten beim Wachsen zu

Das Jahr 2007 markiert einen Wendepunkt in der Geschichte der Menschheit. Zum ersten Mal lebten mehr Menschen in der Stadt als auf dem Land. "Neben dem Klimawandel ist die Urbanisierung der große Megatrend des globalen Wandels", sagt Richard Bamler, Direktor des Instituts für Methodik der Fernerkundung am DLR Earth Observation Center in Oberpfaffenhofen und Professor für Methodik der Fernerkundung an der Technischen Universität München. "Gerade in den Schwellenländern ist die Migrationsbewegung vom Land in die Stadt so stark und vollzieht sich so schnell, dass es von vielen Städten dieser Welt überhaupt keine verlässlichen Daten für Planung und Management gibt. Bei den informellen Siedlungen, also den Ankunftsstätten der Landbewohner, laufen die Bevölkerungszahlen in verschiedenen Studien teilweise sogar um den Faktor drei auseinander."

Um Stadtgeographen eine verlässliche Datenbasis an die Hand zu geben, hat sich das DLR ein großes Ziel gesteckt: die Kartierung aller Städte der Erde. Landbedeckungsklassifizierung nennt sich diese Aufgabe. Als Basis dienen die Bilder verschiedenster Satelliten, beispielsweise jene des europäischen Erdbeobachtungsprogramms Copernicus und der deutschen Radarmissionen TerraSAR-X und TanDEM-X. Auf den Bildern werden Felder und Wälder aber auch Straßen, Stadtbezirke mit Wohnhäusern, Büroviertel oder Slums identifiziert. "Diese Aufgabe lässt sich mathematisch oft nicht ausreichend beschreiben, vor allem wenn Sie die verschiedenen Kulturkreise der Erde berücksichtigen wollen. Deshalb setzen wir auf lernende Verfahren."

Wurden bisher verschiedene Parameter wie Anzahl und mittlere Größe der Häuser oder das Material der Dächer betrachtet, setzen Bamler und seine Kollegen heute auf Werkzeuge aus dem Bereich der künstlichen Intelligenz. (siehe Kasten) "Für die Erdbeobachtung hat vor allem das maschinelle Lernen sehr großes Potenzial," erklärt Richard Bamler. Dafür haben die Forscher ein Programm entwickelt und mit zehntausenden Satellitenbildern, aber auch Bildern aus sozialen Netzwerken, trainiert. "Wir haben dem Algorithmus gesagt: Bau dir anhand dieser Beispiele ein Modell von etwas, das mathematisch gar nicht beschrieben werden kann. Auf diese Weise hat das Programm gelernt, Slums, Wohngebiete oder Bürogebäude voneinander zu unterscheiden und zwar wesentlich treffsicherer, als auf die herkömmliche Art," sagt der Institutsleiter.

Wie wird aber ein Computerprogramm trainiert, verschiedene Objekte zu erkennen? Dafür gibt es zwei Möglichkeiten: Beim sogenannten überwachten maschinellen Lernen wird dem Programm gesagt, ob sich im Datensatz das gesuchte Objekt - zum Beispiel ein Flugplatz - im Satellitenbild befindet oder nicht. Auf diese Weise schafft sich der Algorithmus ein Modell mit den Eigenschaften, die am wahrscheinlichsten auf einen Flugplatz deuten. Mit genügend vielen Beispielen - oft wird mit Millionen Fotos trainiert - ist das Programm anschließend in der Lage, auch auf völlig unbekannten Satellitenbildern Flugplätze zu erkennen. Sollen hingegen unbekannte Strukturen gefunden werden, bietet sich das unüberwachte Lernen an. Auch hier wird der Algorithmus trainiert. Es fehlt allerdings die Information, welche Objekte sich im Datensatz verbergen. Das Programm sucht nach Mustern in der Datenflut und erstellt sich eigene Kategorien. Nach der Trainingsphase ist es in der Lage, auch unbekannte Daten zu klassifizieren.

Maschinelles Lernen als Werkzeug für Bioinformatiker

"KI und maschinelles Lernen, insbesondere das Deep Learning sind in den letzten fünf bis zehn Jahren sehr populär geworden. Im Zeitalter von Big Data produzieren wir enorm große Datensätze und haben Computer mit entsprechender Rechenkraft, sodass wir wirklich neue Erkenntnisse und Vorhersagen aus diesen Daten ziehen können," sagt Fabian Theis, Direktor des Instituts für Computational Biology am Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (HMGU) und Professor für Mathematische Modellierung biologischer Systeme an der dortigen TU. Theis und seine Kollegen untersuchen auf dem Niveau einer einzelnen Zelle, welche Gene aktiv sind und wie die genetischen Informationen zelltypspezifisch in Proteine umgesetzt werden. "Wenn wir tausende Einzelzellprofile auswerten, dann wissen wir erst einmal nicht, um welche Zellen es sich handelt. Um die unterschiedlichen Genexpressionen zu sortieren, greifen wir auf Methoden des maschinellen Lernens zurück. Diese gruppieren die Messwerte in sogenannte Cluster, die wir dann Zelltypen zuordnen können," erklärt Fabian Theis.

Methoden des maschinellen Lernens sind nicht nur für die Grundlagenforschung von großem Wert. Sie haben auch einen handfesten medizinischen Nutzen. "In einem unserer Forschungsprojekte", berichtet Theis, "sind wir an der Risikoklassifizierung bei Typ 1 Diabetes interessiert. Dafür haben wir Algorithmen entwickelt, die DNA-Profile von Kindern nach bestimmten Kombinationen verschiedener Genmarker durchsuchen." Trainiert haben Theis und seine Kollegen das Programm mit Datensätzen von Kindern aus Risikofamilien die zum Teil noch keinen Diabetes entwickelt hatten, zum Teil aber auch prädiabetisch oder schon diabetisch waren. "Auf diese Weise hat der Algorithmus gelernt, anhand von Genexpressionen in der Zellprobe das Risiko eines Diabetes Typ 1 zu erkennen."

Readers comments

As curious as we are? Discover more.