„Machine-Learning-Verfahren sind eigentlich strohdoof“

| Redakteur: Jürgen Schreier

Bilder zu erkennen, die sie noch nie gesehene haben, für Maschinen heute eine schwierige Aufgabe.
Bilder zu erkennen, die sie noch nie gesehene haben, für Maschinen heute eine schwierige Aufgabe. (Bild: Roberto Schirdewahn)

Firmen zum Thema

Künstliche Intelligenz und Machine Learning sind in aller Munde. So soll z.B. KI-basierte Automatisierung zu höherer Produktivität, besserer Qualität und geringeren Kosten führen. Leider sind die Prozesse, die aktuell der KI zugrunde liegen, eher "dumm". Forscher der Ruhr-Universität Bochum arbeiten daran, diese aufzuschlauen.

Das Thema künstliche Intelligenz durchdringt alle Branchen, beschäftigt sämtliche Medien. Forscherinnen und Forscher des Instituts für Neuroinformatik an der Ruhr-Universität Bochum (RUB) befassen sich seit 25 Jahren damit. Ihr Credo: Damit Maschinen wirklich intelligent agieren können, müssen neue Ansätze maschinelles Lernen erst einmal effizienter und flexibler machen.

„Zwei Arten des maschinellen Lernens sind heute erfolgreich: zum einen tiefe neuronale Netze, auch als Deep Learning bekannt. Zum anderen das Verstärkungslernen“, erklärt Prof. Dr. Laurenz Wiskott, Inhaber des Lehrstuhls Theorie Neuronaler Systeme.

Wenn's komplex wird setzt man auf neuronale Netze

Neuronale Netze sind dazu geeignet, komplexe Entscheidungen zu treffen. Häufig werden sie bei der Bilderkennung eingesetzt. „Sie können zum Beispiel an Fotos von Personen erkennen, ob es sich um einen Mann oder um eine Frau handelt“, erläutert Wiskott.

Die Architektur solcher Netze ist inspiriert durch Netzwerke von Nervenzellen, oder Neuronen, in unserem Gehirn. Neuronen nehmen über mehrere Eingangskanäle Signale auf und entscheiden dann, ob sie das Signal in Form eines elektrischen Impulses an die nächsten Neuronen weitergeben oder nicht.

Auch das neuronale Netz bekommt mehrere Eingangssignale, zum Beispiel Bildpunkte. In einer ersten Stufe errechnen viele künstliche Neuronen aus mehreren Eingangssignalen jeweils ein Ausgangssignal, indem die Eingänge einfach mit unterschiedlichen, aber konstanten Gewichten multipliziert und dann aufaddiert werden. Jede dieser Rechenoperationen ergibt einen Wert, der – um bei dem Beispiel Mann/Frau zu bleiben – ein wenig zur Entscheidung für weiblich oder männlich beiträgt. „Allerdings wird das Ergebnis noch ein wenig verändert, indem negative Resultate auf Null gesetzt werden. Auch das ist von der Nervenzelle abgeguckt und ganz wesentlich für die Leistungsfähigkeit von neuronalen Netzen“, erläutert Wiskott.

Dasselbe passiert in einer nächsten Stufe erneut, und zwar solange, bis das Netzwerk in der letzten Stufe zu einer Entscheidung kommt. Je mehr Stufen dieser Prozess umfasst, desto erfolgreicher ist er. Neuronale Netze mit über 100 Stufen sind nicht selten. Häufig lösen neuronale Netze Unterscheidungsaufgaben besser als Menschen.

Gängige KI-Techniken stammen aus den 1980er-Jahren

Der Lerneffekt solcher Netze liegt in der Wahl der richtigen Gewichtungsfaktoren, die anfangs zufällig gewählt sind. „Für das Training eines solchen Netzwerks gibt man nicht nur Eingangssignale vor, sondern auch, was am Ende für eine Entscheidung herauskommen soll“, erklärt Laurenz Wiskott. So kann das Netzwerk die Gewichtungsfaktoren nach und nach anpassen, um schliesslich mit der grösstmöglichen Wahrscheinlichkeit die korrekte Entscheidung zu treffen.

Das Verstärkungslernen ist hingegen inspiriert von der Psychologie. Hier wird jede Entscheidung des Algorithmus – die Experten sprechen vom Agenten – entweder belohnt oder bestraft. „Stellen wir uns ein Raster vor, in dessen Mitte sich der Agent befindet“, erläutert Laurenz Wiskott. „Sein Ziel ist es, das Kästchen ganz oben links auf dem kürzesten Weg zu erreichen – aber das weiss er nicht.“ Das einzige, was der Agent will, ist, möglichst viele Belohnungen zu bekommen, sonst ist er ahnungslos. Anfangs wird er deshalb völlig zufallsgesteuert über das Spielfeld gehen, und jeder Schritt, der nicht das Ziel erreicht, wird bestraft. Nur der Schritt ins Ziel bedeutet eine Belohnung.

Um lernen zu können, versieht der Agent jedes Feld mit einem Wert, der anzeigt, wie viele Schritte es von hier aus noch zum Ziel sind. Anfangs sind diese Werte rein zufällig. Je mehr Erfahrung der Agent auf seinem Spielfeld sammelt, desto besser kann er diese Werte der Realität anpassen. Nach zahlreichen Durchgängen findet er so den schnellsten Weg zum Ziel und somit zur Belohnung.

Unsinniges Training vermeiden

„Das Problem mit diesen Prozessen maschinellen Lernens ist, dass sie im Grunde strohdoof sind“, sagt Laurenz Wiskott. „Die zugrunde liegenden Techniken stammen aus den 1980er-Jahren. Der Grund für ihren heutigen Erfolg liegt nur darin, dass wir heute grössere Rechenkapazitäten haben und mehr Daten.“ Das macht es möglich, die eigentlich ineffizienten Lernprozesse in ihren unzähligen Durchgängen in kürzester Zeit durchlaufen zu lassen und neuronale Netze mit Massen von Bildern und Bildbeschreibungen zu füttern, um sie zu trainieren.

„Wir wollen aber wissen: Wie lässt sich zum einen das viele unsinnige Training vermeiden? Und vor allem: Wie können wir maschinelles Lernen flexibler machen“, so Wiskott. Denn Künstliche Intelligenz mag exakt in der der einen Aufgabe, für die sie trainiert wurde, dem Menschen überlegen sein, verallgemeinern oder auf verwandte Aufgaben übertragen kann sie ihr Wissen aber nicht.

Beim unüberwachten Lernen muss die KI selbst klar kommen

Die Forscherinnen und Forscher am Institut für Neuroinformatik setzen daher auf neue Strategien, die Maschinen helfen, Strukturen selbstständig zu entdecken. „Dafür nutzen wir unter anderem das Prinzip des unüberwachten Lernens“, sagt Laurenz Wiskott. Während tiefe neuronale Netze und Verstärkungslernen darauf basieren, dass man ihnen das gewünschte Ergebnis präsentiert beziehungsweise jeden Schritt belohnt oder bestraft, lassen die Forscher lernende Algorithmen mit ihrem Input weitgehend alleine.

„Eine Aufgabe könnte etwa sein, Cluster zu bilden“, erläutert Wiskott. Dafür gibt man dem Computer die Anweisung, ähnliche Daten zu Gruppen zusammenzufassen. Stellt man sich Punkte in einem dreidimensionalen Raum vor, würde das bedeuten, Punkte, deren Koordinaten nahe beieinanderliegen, zu gruppieren. Eine grosse Entfernung der Koordinaten voneinander bedeutet die Zuordnung zu verschiedenen Gruppen.

„Wiederum bezogen auf das Beispiel der Bilder von Personen könnte man nach der Gruppierung das Ergebnis anschauen und würde wahrscheinlich feststellen, dass der Computer eine Gruppe mit Männerbildern und eine Gruppe mit Frauenbildern zusammengestellt hat“, sagt Laurenz Wiskott. „Der grosse Vorteil ist, dass man dafür anfangs nur Fotos braucht, keine Bildbeschreibung, die sozusagen die Lösung des Rätsels zu Trainingszwecken schon enthält.“

Ausserdem verspricht diese Methode mehr Flexibilität, denn die Clusterbildung funktioniert auf diese Art nicht nur für Bilder von Personen, sondern auch für solche von Autos, Pflanzen, Häusern oder anderen Dingen.

Geschwindigkeit ist nicht immer alles

Ein weiterer Ansatz, den Wiskott verfolgt, ist das Prinzip der Langsamkeit. Hier besteht das Eingangssignal nicht aus Fotos, sondern aus bewegten Bildern. Wenn man aus einem Video diejenigen Merkmale extrahiert, die sich nur langsam verändern, so lassen sich darin Strukturen entdecken, Diese helfen dann, eine abstrakte Repräsentation der Umgebung aufzubauen.

„Es geht auch hierbei darum, die Eingangsdaten vorzustrukturieren“, verdeutlicht Wiskott. Schliesslich kombinieren die Forscher solche Ansätze modular mit den Methoden des überwachten Lernens, um dadurch zu flexibleren Anwendungen zu gelangen, die trotzdem sehr treffsicher sind.

„Natürlich führt ein Mehr an Flexibilität zu einem Verlust an Performance“, betont der Forscher. „Aber auf lange Sicht, wenn wir Roboter wollen, die mit neuen Situationen umgehen können, ist Flexibilität unverzichtbar.“

Detallierte Informationen zu den diversen KI-Methoden findet man im Youtube-Kanal von Prof. Wiskott.

Die Computer-Fahrschule

Wenn Autos irgendwann autonom durch die Strassen fahren sollen, müssen sie Verkehrsschilder erkennen können. Auch bei Nacht, im Regen, im Schnee oder wenn sie bemoost, verschmutzt oder halb zugewachsen sind. Um das zu lernen, brauchen sie eine Menge Beispiele aller Verkehrszeichen aus den verschiedensten Jahres- und Tageszeiten und Wetterlagen. Prof. Dr. Sebastian Houben vom Institut für Neuroinformatik der Ruhr-Universität Bochum entwickelte gemeinsam mit Dominic Spata und Daniela Horn eine Methode, um Bilder von Verkehrszeichen automatisch zu generieren, mit denen Computer danach das Sehen üben können.

"Wir wollten dahin kommen, dass ein Algorithmus selbst lernt, Bilder von Verkehrszeichen zu generieren, anhand derer andere Programme ihre Erkennungsfähigkeit trainieren können", verdeutlicht Sebastian Houben. Dazu nutzt das Forschungsteam zwei Algorithmen: Der eine bekommt Piktogramme amtlicher Verkehrsschilder und die Aufgabe, daraus fotoähnliche Bilder zu erzeugen, aus denen er selbst später allerdings wieder in der Lage sein muss, das ursprüngliche Zeichen zu erkennen. "Damit verhindern wir, dass der Algorithmus das Bild des Zeichens einfach so stark verfremdet, dass gar keine Ähnlichkeit mehr mit dem Verkehrszeichen gegeben ist", erklärt Daniela Horn.

Der zweite Algorithmus hat die Aufgabe zu entscheiden, ob es sich bei dem so entstandenen Bild um ein echtes Foto handelt oder nicht. Ziel ist es, dass der zweite Algorithmus nicht mehr unterscheiden kann, um was es sich handelt. "Der zweite Algorithmus gibt ausserdem Hinweise an den ersten, wie es noch schwieriger gewesen wäre, die richtige Wahl zu treffen", so Sebastian Houben. "Die beiden sind also Sparringspartner."

Zu Beginn eines solchen Trainingsprozesses funktioniert das Ganze noch nicht besonders gut. Wenn das Bild eines Vorfahrtstrassenschildes die richtige Farbe hat und annähernd quadratisch ist, ist das schon ein gutes Ergebnis. Aber es wird fortlaufend besser. "Nach zwei oder drei Tagen schauen wir mal rein, was für Bilder der Verkehrszeichen herauskommen", erzählt Daniela Horn. "Wenn die Bilder dann für unser menschliches Auge nicht gut aussehen, wandeln wir den Algorithmus etwas ab."

Bei diesem Artikel handelt es sich um die leicht modifizierte Variante eines Beitrags, der ursprünglich im Wissenschaftsmagazin Rubin der Ruhr-Universität Bochum erschienen ist.

Dieser Beitrag stammt von unserem Partnerportal Industry-of-things.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46217693 / Automation & Antrieb)