Tech

KI-Software AlphaZero trainiert sich zum Schachmeister

APA/AFP/Google DeepMind/GOOGLE D

07.12.2018 um 06:00

Drucken

Teil des Teams ist auch der Softwareentwickler Julian Schrittwieser aus Niederösterreich, der bereits im Rahmen seines Studiums an der Technischen Universität (TU) Wien im Jahr 2013 bei Google eingestiegen ist.

Die Google-Software AlphaZero, deren Entwickler im vergangenen Jahr damit aufhorchen ließen, dass das System das Brettspiel Go ohne menschliches Zutun erlernte, hat sich mittlerweile auch zum Schachmeister weiterentwickelt. Das Team, dem auch ein österreichischer Informatiker angehört, berichtet über die Weiterentwicklung seiner Künstlichen Intelligenz (KI) nun im Fachjournal "Science".

Im Jahr 2016 war die internationale Aufmerksamkeit groß, als der Vorgänger des Programms (AlphaGo) den Go-Spitzenspieler Lee Sedol besiegte. Seither hat das System unter dem Namen AlphaGo Zero einige Weiterentwicklungen erfahren und nicht nur seinen künstlich intelligenten Vorgänger, sondern auch weitere namhafte menschliche Spitzenspieler das Fürchten gelehrt.

Die Fähigkeiten der Systeme sorgten für Erstaunen, da das rund 3.000 Jahre alte asiatische Spiel spezielle Anforderungen stellt, die bisher eher dem menschlichen Geist exklusiv zugebilligt wurden. Angesichts nahezu unbegrenzter Möglichkeiten für Züge ist nämlich viel Intuition, kreatives Denken und Lernfähigkeit gefragt.

Österreicher Teil des Teams

Die Algorithmen stammen von der britischen Firma DeepMind, die vor einigen Jahren vom US-Konzern Alphabet (vormals Google) übernommen wurde. Teil des Teams ist auch der Softwareentwickler Julian Schrittwieser aus Niederösterreich, der bereits im Rahmen seines Studiums an der Technischen Universität (TU) Wien im Jahr 2013 bei Google eingestiegen ist. Ob seiner Beteiligung an der Entwicklung des aufsehenerregenden Systems zählte das Magazin "Forbes" den 26-jährigen KI-Forscher heuer zu den 30 interessantesten Persönlichkeiten unter 30 Jahren in Europa in der Rubrik "Technologie".

Während AlphaGo noch Millionen von Züge von menschlichen Top-Spielern über Monate hinweg analysieren musste, um sein hohes Spielniveau zu erreichen, ging das Londoner Team um David Silver bei der neuen Generation einen anderen Weg. Sie entwickelten ein System, das Go ohne Anschauungsmaterial von der Pike auf in Hunderttausenden Spielen gegen sich selbst trainiert und auf sich alleine gestellt weiterentwickelt. Lediglich die Regeln des Spiels waren der Software vorher bekannt.

Nun haben die Wissenschafter ihren Ansatz unter dem Namen AlphaZero verallgemeinert. Der neue Algorithmus kann ohne menschliches Coaching mehrere herausfordernde Spiele lernen, schreiben die Forscher in ihrer Arbeit. Im Schach, Shogi - einer japanischen Variante des Spiels - und Go erreichte auch die neue Inkarnation innerhalb weniger Stunden ein derart hohes Niveau, dass es andere hoch entwickelte KI-Programme besiegte.

"Alpha Zero lernt schrittweise und evaluiert eigenständig"

"AlphaZero lernt schrittweise, was ein gutes Spiel ausmacht und evaluiert es eigenständig. In diesem Sinne ist es frei von den Einschränkungen, die die menschliche Sichtweise darauf mit sich bringt", so DeepMind-Chef Demis Hassabis in einem Statement. Er hoffe, dass das neue Spielstil des Programms Schachspieler auf der ganzen Welt inspirieren wird. Der frühere Schachweltmeister Garry Kasparov, der selbst 1997 als erster amtierenden Weltmeister von dem IBM-Computer "Deep Blue" besiegt wurde, ortet in einem weiteren Statement im Spiel des Algorithmus gar Parallelen zu seinem Stil: "Ich kann meine Freude darüber nicht verbergen, dass es sehr dynamisch spielt - ähnlich wie ich".

Für Hassabis ist die neue Version ein Schritt in Richtung der Vision, eine Software zu konstruieren, die "manche der komplexesten Probleme der realen Welt" lösen kann. Einen wichtigen ersten Schritt "hin zu einer universellen strategischen Lernmaschine" ortet Klaus-Robert Müller von der Technischen Universität Berlin in einer Stellungnahme gegenüber dem Science Media Center (SMC). Man müsse aber betonen, "dass alle der untersuchten Spiele jedoch immer ein kontrolliertes Umfeld darstellen. Eine universelle strategische Lernmaschine jenseits des Spieleumfeldes wird sicher noch viele Jahre der intensiven Forschung brauchen."

(APA)

Lesen Sie mehr zu diesen Themen:

Tech