KI "Go-Explore" stellt neuen Atari-Highscore auf

Auch eine Maschine will belohnt werden. Möchte man etwa einem Roboter beibringen, eine Tafel Schokolade aus dem Kühlschrank zu holen, so braucht dieser ein Schulterklopfen, wenn die Aufgabe erfüllt ist. Ein Mensch könnte einfach von der Tafel abbeißen, um ganz sicher zu sein, die Aufgabe gelöst zu haben. Da einer Maschine solche leiblichen Erfahrungen (noch) verwehrt sind, braucht sie eine andere Belohnung, etwa eine Gutschrift auf ein Punktekonto. Aus diesem Grund sind künstliche Intelligenzen (KI) jedoch bislang relativ schlecht darin, in einer komplexen Umgebung neue Aufgaben zu erfüllen. In einer Wohnung gibt es schließlich unzählige Schränke und Schubladen, die sich öffnen lassen, und noch mehr Wege, um zu ihnen zu gelangen. Die KI weiß nicht, was ein Kühlschrank ist und muss daher alle Möglichkeiten durchprobieren. Der Erfolgsfall - Kühlschrank geöffnet, Schokolade geholt - ist bei einer so langen Kette von nötigen Handlungen dagegen sehr selten, die Lernkurve damit zu steil.

Computerspiele
:Macht mehr Zocken glücklich?

Forscher haben untersucht, ob es Menschen schlechter geht, wenn sie besonders viel Zeit mit Computerspielen verbringen. Eines steht fest: Man darf sich nicht auf die Angaben der Spieler verlassen.

Mit einem neuen Algorithmus wollen Forscher der KI-Firma OpenAI und des Fahrdienstleisters Uber nun die Erkundung neuer Umgebungen deutlich verbessert haben, wie sie im Fachmagazin Nature berichten. Erprobt haben sie ihr KI-System namens "Go-Explore" anhand Dutzender Atari-Spiele. Diese zählen zwar nicht mehr zum aktuellsten, was die Branche zu bieten hat; um KIs zu testen, eignen sich Spiele wie "Space Invaders" oder "Road Runner" wegen ihrer reduzierten Optik und vergleichbar einfacher Regeln aber perfekt. Vor allem zählen dazu auch erkundungsintensive Titel wie "Montezuma's Revenge", in dem der Spieler einen aztekischen Tempel nach Edelsteinen durchsucht und dabei Fallen ausweichen muss. Go-Explore erzielte dabei einen viermal so hohen Wert wie bisherige KIs. Gaben die Entwickler der KI zusätzlich "menschliches Vorwissen", genannt "Domain Knowledge", mit auf den Weg, überflügelte sie sogar erstmals den von einem Menschen aufgestellten Weltrekord mit 1,7 Millionen Punkten deutlich. In allen 55 getesteten Titeln spielte Go-Explore insgesamt übermenschlich, selbst im Erkundungsspiel "Pitfall!", in dem ältere KIs bislang überhaupt keine Punkte erzielen konnten.

Dabei ist der Trick von Go-Explore im Prinzip recht simpel: Das System erkundet seine Umgebung nicht rein zufällig, sondern merkt sich alle Schritte, die es in der Vergangenheit schon gegangen ist und die es seinem Ziel näher gebracht haben. Zu diesen Zuständen kann es zurückkehren und weitere Optionen ausprobieren. So verhindern die Entwickler unter anderem, dass eine KI immer weiter in die falsche Richtung läuft und dabei vergisst, dass es möglicherweise zuvor noch Abzweigungen gegeben hätte - ein Problem, das in der KI-Forschung als "Entgleisung" bekannt ist.

Die SZ-Redaktion hat diesen Artikel mit einem Inhalt von YouTube angereichert

Um Ihre Daten zu schützen, wurde er nicht ohne Ihre Zustimmung geladen.

Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden. Damit werden personenbezogene Daten an den Betreiber des Portals zur Nutzungsanalyse übermittelt. Mehr Informationen und eine Widerrufsmöglichkeit finden Sie untersz.de/datenschutz.

"Die Studie ist methodisch inkrementell und doch ein Durchbruch", sagt Jan Peters, Professor für Intelligente Autonome Systeme an der Technischen Universität Darmstadt. "Menschliche Experten in so vielen Problemen zu schlagen, ist ein eindrucksvoller Erfolg." Peters sieht einen wesentlichen Fortschritt darin, dass es den Entwicklern gelungen sei, der KI neben der Suchfähigkeit zusätzlich menschliches Vorwissen einzupflanzen. "Persönlich vermute ich, dass derartige Kombination von statistisch-neuronalen Verfahren und des 'Domain Knowledge'-Engineering der KI den Durchbruch in der Medizin, im autonomen Fahren und in anderen sicherheitskritischen Anwendungen ermöglichen wird. Daher ist dieser potenzielle Zeitenwechsel von sehr großer Bedeutung."