Rücksichtsloses, „übermenschliches“ Poker-Computerprogramm lässt Elite-Spieler folden

Rücksichtsloses, „übermenschliches“ Poker-Computerprogramm lässt Elite-Spieler folden

Jason Les, einer der weltbesten Pokerspieler, repräsentierte seine Spezies, als er im Mai gegen ein Computerprogramm namens Pluribus antrat. Das Spiel war Multiplayer No-Limit Texas Hold’em. Les und andere professionelle Pokerspieler mit einem Karriereverdienst von mindestens 1 Million US-Dollar meldeten sich freiwillig, um den Bot zu spielen, um zu testen, ob er das Eliteniveau der Pokervirtuosität erreicht hatte.

'Ich habe die Dominanz der Menschheit in diesem Spiel verteidigt', sagte Les. 'Ich bin leider gescheitert.'

Der Triumph von Pluribus war berichtete am Donnerstag in der Zeitschrift Science unter der Überschrift „Übermenschliche KI für Multiplayer-Poker“. Wie Schach, Dame, Go und andere Spiele wurde die beliebteste Form des Pokers inzwischen von den kalten, herzlosen Machenschaften eines Computerprogramms beherrscht.

Die Geschichte geht unter der Werbung weiter

Pluribus verwendet eine Strategie, die in mancher Hinsicht die besten taktischen Instinkte der Topspieler des Spiels bestätigt. Aber es hat auch einige überraschende Tendenzen, einschließlich einer verwirrenden Unvorhersehbarkeit in seinen Wettgewohnheiten. Es setzt oft zu Beginn einer Hand riesige Summen – erinnert an die disruptiven Taktiken von „Jeopardy!“. Weltmeister und Profi-Sportwetter James Holzhauer.

Dieser Meilenstein in der künstlichen Intelligenz hat Auswirkungen über Poker oder alles, was an den Spieltischen in Las Vegas passiert. Diese Technologie, so die Erfinder, könnte auf selbstfahrende Autos, Auktionen, Vertragsverhandlungen und Entscheidungen über die Produktentwicklung angewendet werden. Es könnte sogar in politischen Kampagnen verwendet werden, um Kandidaten bei der Entscheidung zu helfen, wo Ressourcen in einem Wettbewerb mit mehreren Gegnern mit jeweils einer geheimen Strategie zugewiesen werden sollen.

Darüber hinaus verwendet Pluribus im Gegensatz zu den „Deep Learning“-KI-Programmen, die bei Schach und Go unschlagbar wurden, keine riesigen Datenmengen und Berechnungen.

Die Geschichte geht unter der Werbung weiter

„Die zugrunde liegenden Techniken sind sehr allgemein gehalten und werden meiner Meinung nach auf eine Vielzahl von Umgebungen angewendet“, sagt Hauptautor Noam Brown, der bei Facebook AI Research arbeitet und Doktorand an der Carnegie Mellon University ist, wo er damit begann. Forschung. Die größte Herausforderung, sagte er, sei: „Wie bringt man die KI dazu, mit versteckten Informationen in einer komplexen Umgebung mit mehreren Agenten umzugehen?“

Tuomas Sandholm, Browns Berater bei Carnegie Mellon und Mitautor des neuen Papiers, sagte, die Entwicklung von Pluribus komme nach 16 Jahren Forschung und inkrementellen Verbesserungen der Software. Er habe zwei private Unternehmen gegründet, um die Software zu kommerzialisieren, sagte er.

Eine frühere Version des Softwareprogramms namens Libratus hatte gezeigt, dass es beim Zwei-Spieler-Poker gewinnen kann, aber Pluribus funktioniert in einem Mehrspieler-Pokerspiel, eine weitaus kompliziertere Situation. Sandholm beschrieb Pluribus als „tiefenbegrenzten Look-Ahead-Algorithmus“. Pluribus berechnet bei der Entscheidung, was zu tun ist (z. B. eine Wette mitgehen, eine Wette erhöhen oder aussteigen) die Gewinnchancen der Hand, führt die Berechnungen jedoch nur wenige Schritte voraus und nicht bis zum Ende des Spiels , was unplausible Berechnungen erfordern würde. Der Blick auf das Ende des Spiels „würde länger dauern als das Leben des Universums“, sagte Sandholm.

Die Geschichte geht unter der Werbung weiter

Das Pluribus-Experiment hatte zwei Phasen. Zuerst musste Pluribus gut im Poker werden. Es tat dies, indem es Hände gegen Kopien seiner selbst spielte. Es wurde untersucht, was die Ergebnisse gewesen wären, wenn es anders gespielt hätte. Wenn ein anderer Zug die Gewinnchancen verbessert hätte, würde der Bot sich entscheiden, diesen Zug häufiger zu machen. Dieser Prozess ermöglichte es Pluribus, seinen Algorithmus – seine „Blueprint-Strategie“ – für die nächste Phase, den Wettbewerb gegen Menschen, zu verfeinern.

Der Bot spielte über einen Zeitraum von 12 Tagen 10.000 Hände Poker gegen mehr als ein Dutzend professioneller Elitespieler, in Fünfergruppen gleichzeitig. In einer Version des Experiments spielten fünf Bots einen Menschen. Die Bots haben sich im Laufe der Zeit trotz einiger Höhen und Tiefen durchgesetzt. Die Forscher berechneten, dass ein solcher Bot, der mit 1-Dollar-Chips spielt, im Durchschnitt mehr als 1.000 Dollar pro Stunde verdienen würde, wenn er gegen die Top-Konkurrenz Poker spielt.

Einige der besten Spieler des Spiels haben bereits von Pluribus gelernt.

„Eine der stärksten Eigenschaften des Bots ist die Fähigkeit, gemischte Strategien zu spielen. Es kann genau die gleiche Hand und das gleiche Szenario haben und jedes Mal anders setzen“, sagte der professionelle Pokerspieler Darren Elias, der an dem Experiment teilnahm, der Washington Post. „Du kannst kein Muster von dem erkennen, was er tut – was?es isttun.'

Ein auffallendes Merkmal dieses Bots ist der große frühe Einsatz. Manchmal setzt der Bot die Ranch („all in“) früh in einer Pokerhand oder in einer Situation, in der ein Mensch es wahrscheinlich nicht tun würde.

Die Werbegeschichte wird unter der Werbung fortgesetzt

Und manchmal foldet Pluribus selbst mit einer anständigen Hand oder callt einen Einsatz, selbst wenn er eine mittelmäßige Hand hat. Pluribus hat keine Angst zu bluffen. Am wichtigsten ist, dass Pluribus auf eine Weise setzt, die menschlichen Gegnern zufällig erscheint. Unberechenbarkeit ist hier die Killer-App. Und der Bot ist emotionslos und unermüdlich in der Umsetzung der Strategie. Es hat die besondere Gabe jeder Maschine – die Unfähigkeit zu überreagieren, entmutigt zu werden oder zu verzweifeln.

„Es ist nervig“, sagte Les, 33. „Du weißt nicht, was dich erwartet. Ihre vorgefassten Meinungen darüber, wie Menschen Poker spielen, treffen nicht zu.“

Bei Texas Hold'em bekommt jeder Spieler zwei verdeckte Karten (die sogenannten Hole Cards), gefolgt von drei aufgedeckten Karten auf einmal (der Flop), dann eine weitere offene Karte (der Turn) und dann eine letzte Karte, ebenfalls aufgedeckt ( der Fluss). Die Spieler stellen ihre beste Hand aus fünf Karten aus den sieben verfügbaren Karten zusammen. In jeder Runde wird gewettet.

Die Werbegeschichte wird unter der Werbung fortgesetzt

In einer vom Forschungsteam hervorgehobenen Hand hatte Pluribus eine Fünf und eine Sechs von Diamanten im Loch. Der Flop zeigte eine 10 und eine Karo-Zwei und eine Pik-Vier. Das sah für Pluribus vielversprechend aus: Es hätte einen Straight (gut!) bekommen können, wenn eine der verbleibenden zwei Karten eine Drei war, und es hätte einen Flush (noch besser!) bekommen, wenn eine der letzten beiden eine Karo war.

Drei menschliche Spieler waren zu diesem Zeitpunkt noch in der Hand (zwei andere hatten gefoldet). Die ersten beiden Spieler haben 'gecheckt', was bedeutet, dass sie keine Wette gemacht haben, aber nicht gefoldet haben. Der dritte menschliche Spieler erhöhte dann den Pot um $300 – er fühlte sich eindeutig gestärkt durch seine Hole Cards, ein Ass und eine Dame. Pluribus hatte mehrere Optionen: folden, callen oder erhöhen. Pluribus wählte den aggressivsten Zug von allen – er ging All-In und setzte seinen gesamten Chipstapel, $9.775. Übermenschlich superaggressiv! Die drei menschlichen Spieler foldeten.

Les erinnerte sich an eine andere Hand, die Pluribus verloren hatte, aber das enthüllte etwas über den Bot. Pluribus hatte drei Zweien, eine ziemlich gute Hand, und machte eine seiner typisch aggressiven Einsätze, den dreifachen Pot-Wert, etwa $3.000, wie sich Les erinnerte. Dann ging ein menschlicher Gegner All-In. Pluribus foldete.

Die Werbegeschichte wird unter der Werbung fortgesetzt

Das klingt auf seinem Gesicht nach einem schlechten Zug. Pluribus hat so viel Geld verloren! Aber das war dem Bot egal. Der Bot hält an einer Strategie fest, die im Laufe der Zeit unaufhaltsam zu funktionieren scheint, auch wenn es Verluste im Mix gibt. Dazu gehört auch, dass Sie sich sorgenfrei falten und sich keine Sorgen über verlorenes Geld machen müssen. Ein Mensch würde sehr ungern eine Hand mit drei Zweien aufgeben und bereits $3.000 im Pot haben, bemerkte Les.

„Viele Menschen mögen sagen: ‚Ich habe einen Dreier. Ich habe so ein gutes Händchen. Ich kann mich nicht von diesem Typen herumschubsen lassen “, sagte Les. „Die KI reagiert nicht so emotional. Es hat nur eine Strategie.“

Brown sagte über seine Erfindung: „Der Bot spielt immer das lange Spiel. Solange es die meiste Zeit richtig ist, wird es auf lange Sicht Geld verdienen.“

Die Geschichte geht unter der Werbung weiter

Ein faszinierendes oder vielleicht beunruhigendes Element der Geschichte ist, dass der Bot diese Ergebnisse erzielt, ohne auf die Persönlichkeiten, Gewohnheiten und Strategien seiner Gegner zu achten. Der Bot beschäftigt sich nicht mit der menschlichen Psychologie. Es weiß nicht, wen es spielt oder versucht zu berechnen, wie der mentale Zustand des Gegners sein könnte.

Das steht im Gegensatz zu dem, was diese Woche in Las Vegas bei der World Series of Poker passiert. Ein Fernsehzuschauer wird bemerken, dass die Spieler viel Zeit damit verbringen, sich gegenseitig zu hinterfragen und herauszufinden, wer blufft und wer nicht – auf der Suche nach dem „Tell“.

Was Pluribus vorschlägt, ist, dass Menschen den psychologischen Teil des Spiels überbewerten. Um ein Champion zu sein, scheint es alles zu sein, die Mathematik und die Wahrscheinlichkeiten richtig zu machen.

Es spielt keine Rolle, wer am Tisch zuckt und kratzt und blinzelt.

Weiterlesen:

Googles AlphaGo schlägt den weltbesten Go-Player

Spielt es eine Rolle, ob James Holzhauer „Jeopardy!“ gebrochen hat?

Facebook forciert Forschung zu künstlicher Intelligenz