ポーカーAIが人間に圧勝!AIソフト「Pluribus」が不完全情報ゲームに挑む、強化学習の威力とは?

ポーカーは、人間の心理をついた、かなり高度なゲーム。相手が持っているカードが見えないので、囲碁や将棋とは別の難しさがあります。

そのポーカーの世界で、AIが人間のトッププロに圧勝したというニュースが入ってきました。




■ ポーカーのトッププロが、AIソフト「Pluribus」に敗れた!

今回ニュースになったのは、Facebookとカーネギーメロン大学が共同開発したポーカーAIソフト「Pluribus」です。

世界のポーカー対戦で億円以上の賞金を稼いているトッププロたちが実験に参加し、惨敗。プレイヤーたちは、プロの人間より冷静で強いと感じたそうです。

やはり人間に勝つほどのAIには、何か底知れぬ知性を感じるのかもしれません。

■ 不完全情報ゲームに、自己対戦型の強化学習が挑む

ポーカーは不完全情報ゲームと呼ばれます。つまり、相手が持っているカードが見えない状態で、推測する必要があります。確率論だけでなく、相手の動きから、持っているカードを推測するなど、複雑な推理が求められます。

ここで役に立つのが、自己対戦型の強化学習です。同じ「Pluribus」同士で、何万回、何億回と対戦させて、場面ごとの成功確率を学習していきます。

ポーカーのルールは決まっていて、カードの枚数も決まっています。何度も対戦を繰り返せば、ポーカーの究極の真理が見えて来るのです。それが何なのか、人間にもわかりません。論理的に言葉では説明できないけど、「Pluribus」はその真理を数値的に蓄積しているのです。

この技術をもう少し発展させると、ビジネス判断にも応用できそうです。難しい駆け引き、交渉事も、AIが引き受けてくれるかもしれません。冷静に計算して、成功確率の高い選択肢をアドバイスしてくれる。そんな時代はもうすぐです。

2017年の解説ですが、こちらも参考になりそうです




■ 常識外れの悪手も、かまわず繰り出す

これまで常識と考えられていたセオリーとは、まったく違う手を繰り出すことがある。それが何を意味しているのか、人間には理解不能です。従来はセオリーと言われていた戦略も、ずっと最適解であるとは限りません。本当は、もっといい手の可能性があるかもしれないのです。

AIには感情がありません。こういう手を出すと、相手がどう感じるかなど考えていないのです。また、こう来たから、次はこうだろう、などと人間のようには考えていません。

今までの膨大な経験から、一番成功確率が高い手を機械的に計算で求めます。ある意味、ブレがなく、ミスもない。それが、冷静で落ち着いたプロの風格を醸し出すのかもしれません。

■ 新次元に突入するポーカーAIの世界

将棋や囲碁の世界でも、AIの飛躍的進化が注目されています。もはや、普通に戦って、人間がAIに勝つことは不可能になってきています。

人間もAIが繰り出す新手を学習し、新たな戦略の研究に役立てているのです。人間同士で練習するだけではなく、AIも練習相手として必須の時代。

まだまだ始まったばかりのポーカーAIですが、これから飛躍的に強くなり、人間もポーカーAIから学ぶ、良き対戦相手となるでしょう。

AI相手に練習するのは、他の様々な分野でも始まりそうです。お笑い漫才の相手役もAIになって、ボケでもツッコミでも、鋭い反応を返してくれるようになるかもしれません。あ、ポーカーの話から脱線してしまいました。では、話しを戻して…




■ 不完全情報ゲームに対応できるAIは、シンギュラリティの入り口!?

私は「Pluribus」がプロの人間に勝ったというニュースを聞いたときに、シンギュラリティの糸口が見えたかもしれないと思いました。シンギュラリティとは、人間をはるかに超える知的な存在。意識や意思も持って、場合によっては人間を支配する存在になるかもしれないと恐れられています。シンギュラリティは、米国のカーツワイル博士が提唱した概念で、2045年頃にやって来ると言われています。

ポーカーで勝てるということは、ビジネスゲームでも勝つ可能性があります。ビジネスゲームとは、ビジネスの世界の一部のルールをゲームの中で再現し、遊びながらビジネススキルを高めるゲームです。ゲームなのでルールは決まっていますが、相手がどんな手を出すかはわかりません。不完全情報ゲームの一種と言えます。

現実のビジネスの世界も同じです。ビジネスゲームで常に勝てる人は、実際のビジネスでも強いと言われています。ソフトバンクの孫社長が有名で、ビジネスゲームを社内研修に取り入れているそうです。

ともかく、ゲームと言ってもポーカーのような不完全情報ゲームは、現実世界に似た不確実性があります。その中で確実に勝ち続ける力というのは、ビジネスで勝ち続けるのと同じ意味を持ちます。

極端な例では、戦争の戦略も不完全情報ゲームです。戦争にも使えてしまうかもしれない。ということは、人間を巧妙に支配する力をAIが持つかもしれない。ということなのです。少し発想が飛躍しているかもしれませんが、そういう可能性を持った技術だということは知っておいてもいいでしょう。

■ 「Pluribus」は、普通のサーバーで動く

「Pluribus」はサーバー1台で動いています。

64コア、512GB RAMというスペックは、ちょっと高級なゲーム用パソコンくらいです。個人なら100万円以下でつくることができます。

このサーバーを使って8日間、自己学習させた結果を使って対戦しています。仮にクラウドで実行した場合のコストは、$150。2万円以下の低コストで実現できてしまうのです。

数年後には、スマホでも出来るくらいです。

■ 「Pluribus」の論文は、米科学誌Scienceで公開中

英語ですが、こちらから見ることができます。
興味がある方はどうぞ!

Superhuman AI for multiplayer poker (11 Jul 2019)
https://science.sciencemag.org/content/early/2019/07/10/science.aay2400




対戦風景はこちらをどうぞ!

Pluribus Poker AI from Facebook AI Research

シンギュラリティも連想させる、ポーカーAIの動向。今後も目が離せませんね!

ではでは。