ナッシュ均衡に対する誤解 (Part 2)

Posted · コメントを追加する

misconception

Part 1

ナッシュ均衡は守るだけで利益が期待できない

GTOは良くてもブレイクイーブンにしかならないと思われることがあります。この勘違いの起源は ナッシュ均衡 を初めて聞く人に説明するのによく使われるじゃんけんにあります。じゃんけんの ナッシュ均衡 はグー・チョキ・パーをそれぞれ1/3の確率で出し、相手がどんな戦略を使おうと平均的に勝率は50%になります。人はこれを見て、ポーカーも同じなのだろうと推論してしまうのです。

確かにGTOはアジャストして弱い相手の戦略を搾取しようとはしません。そういう意味では最大に利益を出してくれることは期待できません。しかし最良のシナリオでもトントンというのは大間違いで、ポーカーみたいな複雑なゲームだと自分はナッシュ均衡通りにプレイしていて相手が逸れるとほとんどの場合は相手の期待値が下がります。逆に最悪のシナリオこそがトントンで、自分がナッシュ均衡通りにプレイしていて相手がナッシュ均衡ではない戦略をプレイしているなら、自分の期待値は二人ともナッシュ均衡通りにプレイしている時の自分の期待値と比べて同じか高いかの可能性しかありません。つまり、意図的に搾取せずにナッシュ均衡通りにプレイするだけでも相手は自分の間違いで自分を搾取してしまうのです。

実はこの誤解、先月放送されたHUポーカーのトッププロ対リブラタスというポーカーAIの対戦で反証されました。リブラタスは相手の戦略の弱みは一切見つけようとせず、自分の戦略の穴を埋めようとだけしました。つまり、一人一人の相手に対して搾取的にアジャストをせず、ただ単にGTOを近似する戦略を使っていたのです。それなのにヘッズアップのトッププロである人たちに対して14.6BB/100の結果で圧勝を果たしました。これは搾取不可能なGTO戦略を使うだけで意図的に搾取しなくても相手の間違えからかなりの期待値が出せることを論証しています。

最大限に搾取する戦略の方が利益が出せる

GTOは相手が自分より強い時、又はリードレスの時に使えば最低限の平均期待値を保証してくれて、これらの状況でそれ以上に期待できる戦略は他に存在しません。しかし相手がどうプレイしているか知っていて、戦略を細かく把握しているのなら最大限に搾取することができます。そして最大限に搾取することが一番利益を出します。でもこの考え方は相手が戦略を調節しないと仮定した場合しか成り立たちません。実際は相手が搾取に気付いてアジャストすることが可能なので、今このハンドの利益だけという考え方ではなく、一つ一つのハンドで短期的な利益を少し犠牲にし、相手に気付かれない程度で搾取して長期的に利益を最大化するアプローチが最適になります。

そもそも常に最大限に搾取することは不可能です。相手が戦略をアジャストするタイミングも、レンジや頻度を調節する度合いなども具体的に分かるわけがないからです。さらに、たとえできたとしても基本的に最大限に搾取して得られる利益はカウンター搾取で損する量より少ないので、最大限に搾取することには大きなリスクが伴います。

となると、どのくらい搾取すればいいのかという度合いの問題になってきます。ここでGTOが役に立ちます。「最大限に搾取」から搾取を少し抑えるために戦略をアジャストするといっても、方向性がありません。全てのハンドが搾取的にプレイしているので、搾取的じゃなければ他にどうプレイすればいいのか?という問題にぶつかってしまいます。正しい考え方は「GTO戦略」から始まり、搾取の方向に戦略をアジャストする。そうすることで意図的に搾取するためにアジャストした戦略の部分以外の部分もバランスをある程度保ったままでいられる上に、最大限に搾取するのと比べて相手に気付かれにくいです。さらに、GTOはどのハンドから搾取的にアジャストしていけばいいのかを指摘してくれます。

ナッシュ均衡はヘッズアップでしか使えない

これは完全に間違ってはいません。ナッシュ均衡は複数人ゲームでも存在するものの、ポーカーにおいてナッシュ均衡の特性は二人ゲームのみで有力です。複数人ゲームで役に立たない理由はやや複雑ですが、簡単にまとめると複数人ゲームのナッシュ均衡は最低限の期待値を保証できなくなってしまうからです。自分がナッシュ均衡通りにプレイしていても、相手が逸れた戦略を使うことで相手の期待値だけではなく自分の期待値も下げることが可能なのです。

しかしだからと言ってリングゲームなどでGTOは全く役に立たないということはありません。リングゲームでもプレイヤーがフォールドし、二人だけの状態になることも少なくありません。そして元は何人ゲームであれ、プレイ中で二人だけになった時点からGTOは有効になります。なのでどんな種類のポーカーでもGTOは適用できるので学ぶ価値があります。