ナッシュ均衡に対する誤解 (Part 1)

Posted · 3 Comments

Image

ナッシュ均衡 のことを学ばずにポーカーは上手になれます。今までそうしてきた人はたくさんいるので、必要不可欠というわけではありません。しかし学ぶメリットはたくさんあり、前回の記事(ゲーム理論・GTOの利点 Part 1 & Part 2)でいくつか述べました。

ナッシュ均衡 がどれだけ有益なのかをポーカー勢が気付き始めたのが結構最近の話ということもあって、ポーカーが強い人やポーカースノーウィーなどのポーカーソフトの開発者でも誤解している人は意外とたくさんいます。今回はよくある ナッシュ均衡 に対する誤解を解いていきたいと思います。

ナッシュ均衡=プッシュオアフォールド

簡単なものから始めましょう。

ナッシュ均衡と聞くと、多くの人はプリフロップのプッシュオアフォールドのチャートを思い浮かべるんじゃないかと思います。あれはポストフロップに行くことがないと仮定した場合の最適戦略となりますが、オールインではないレイズやリンプの可能性を無視しているのでもちろん非現実的です。しかしプッシュオアフォールドは一種の、しかも低レベルのナッシュ均衡でしかありません。

なぜナッシュ均衡=プッシュオアフォールドという誤解が生まれたのかというと、つい最近まではそれぐらいしか計算ができなかったからです。ゲーム全体のソリューションを計算するには至りませんが、今では無料のソフトでもリバーとターンの計算ができるようになっています。(有料だとさらにフロップとプリフロップも可能。)もちろん、これはプッシュオアフォールドと違ってポストフロップのプレイを考慮した上でのGTO戦略を計算するものです。

ナッシュ均衡通りにプレイするのは非現実的

ポーカーは非常に複雑なゲームなのでゲーム全体のナッシュ均衡の計算が現在では不可能、分かったとしても暗記して利用するのは確かに現実的ではありません。しかしゲーム理論を理解するメリットは必ずしもナッシュ均衡通りにプレイするためではなく、搾取不可能な戦略がどういう構造をしているのか、そして均衡からの偏差を搾取するにはどういったアジャストメントが必要なのかを理解するためです。(そしてソリューションが分かっても実戦での適用方法はまた別の問題です。)

これはゲーム内の部分的なシチュエーション(サブゲーム)を計算して行います。レンジとベットサイズを定めればプリフロップからでも計算は可能です。まずはこれでGTO的プレイの形が分かります。そこからノードロッキングという機能を使ってそれぞれのリークの搾取方法を算出します。これは相手のリークを戦略に組み込んで、リークを想定した上で調節されたGTO戦略を計算します。

そもそもナッシュ均衡を知らないと何がリークで何がリークではないのかが分かりません。GTO戦略を知らなくても明らかにリークだと断言できるものもありますが、エッジは分かりにくい間違いからも取れるので、分かりやすいリークだけに制限するのはもったいないです。さらに、間違いが大きければ大きいほど相手も自分が間違えていると気づいて戦略を改善するスピードも上がります。なので発見しにくい割にはもっと長く保たれるリークを搾取していくことも大事です。

お互いにナッシュ均衡を理解していて、お互いが相手の戦略を把握している場合でないと意味がない

この誤解はナッシュ均衡の的確な定義が一人のプレイヤーの戦略ではなく複数人の戦略の組み合わだという事から生まれます。実際、ナッシュ均衡は一人だけが自分の戦略を変更することで自分の期待値を上げることは不可能なので、相手が均衡通りにプレイしていなくても最低限の期待値はまだ保証されます。相手が自分がGTO戦略を使っていると知る必要は無いですし、相手もGTO戦略を使っている必要もありません。

GTOと搾取のどちらかを選ばなければいけない

GTO Basic Concepts Series で詳しく説明していますが、結論から言うとGTOと搾取の両方が必要なのです。この二つのアプローチは対立していると捉えがちですが、実は相互関係があります。その時置かれた状況で自分が持っている相手についての情報の量によってGTOと搾取を切り替えます。さらに、GTOも実は搾取的で、完ぺきにバランスが取れた相手を想定した上での最大限に搾取する戦略です。 なのでもっと正確にいうと「GTOか搾取」というバイナリーな選択肢ではなく、100%GTOから0%GTO(言い換えれば0%搾取から100%搾取)のスケールがあってバランスを取る度合い、または搾取する度合いを決めるのです。一応片方だけでプレイすることも可能ですが、どちらか一つだけ選ぶのでは最大に利益が出せません。

Part 2