PioSOLVER,GTOに関しての概要

そもそもpiosolverって何ができるの?

piosolverはホールデムでのGTO解を求めることができるsolver、つまり計算機械です。

こんな感じで計算結果を見ることができます。

f:id:takoagemat:20180813033351p:plain

この記事では
①このGTOとはなんなのか
②GTOを求めることが一体なにに繋がるのか
ということを自分の理解の範疇で述べていきたいと思います。

自分が頑張って理解できたと思ってることを読者の方に20分もかからず理解してもらうことが目的です。

①まずGTOとはGame Theory Optimalのことでゲーム理論に基づく最適の戦略のことです。

この最適な戦略とはナッシュ均衡のことです。GTO、ナッシュ均衡はポーカーにおいて同じ意味だと自分は認識しています。

(追記 2020/3/25)
(GTOとナッシュ均衡は同じではありませんでした。
ナッシュ均衡は以下の通りの戦略の組み合わせ、GTOは戦略に対して定義されているものでした。)

ナッシュ均衡とは、他のプレイヤーの戦略を所与をした場合、どのプレーヤーも自分の戦略を変更することによって高い利得を得ることができない戦略の組み合わせです。

つまり、piosolverは、どのプレイヤーも相手の戦略を知っている状態で自身の戦略を変えるインセンティブを持たない戦略、の計算をしてくれるということです。

f:id:takoagemat:20180813033619j:plain

これだけでわかる人はすごいと思います。

これだけでみんなに分かられたらたまったものではないので分からない人多数という仮定のもと例をあげて自分なりにわかりやすく説明していきます。

例として二人でのグリコゲームを考えて見ようと思います。

グリコゲームは小さい頃やったことあるひと結構いると思います。
グーで勝ったら3歩、チョキとパーで勝ったら6歩進めるじゃんけんでのゲームです。
歩数は地域などによって違うのかもしれませんがここではこのルールのもとで考察してみます。

このグリコゲームにおけるナッシュ均衡はジャンケンのグー、チョキ、パーをそれぞれグーを40%、チョキを40%、パーを20%の確率で出す戦略です。

二人がお互いグーを40%、チョキを40%、パーを20%の確率で出す戦略を実行していれば、その戦略を変える利点がないということです。

この場合は手計算でも簡単に求められます。
計算方法は相手がどの手を出しても期待値が0を超えないようにするにはどうすればいいかを計算すればいいです。

しかし、ポーカーのような複雑でどのようにプレイすれば勝てるのかまるで分からないように感じてしまうゲームでナッシュ均衡を求めるのは人間には至難です。

それをこのpiosolverはできるということです。

②piosolverがそのGTO,ナッシュ均衡とやらが求められるのはわかった

で？

となるのが人間でしょう。

ナッシュ均衡を求めることが一体何に繋がるのか疑問です。これだけpiosolverが使われているのだからこのナッシュ均衡を求める作業に利点があるはずなのです。

まずひとつにこのナッシュ均衡を求めることで二人のゲームにおいて最低限の期待値を保障してくれるのです。

つまりpiosolverで求めたナッシュ均衡通りプレイすることでHUではレーキを考慮しないとEV0以上を必ず実現することができるのです。

0以上と言いましたがポーカーではこのGTO通りプレイすることで期待値が0より大きくなることが可能です。（これについては後述します。）

さらに、そのナッシュ均衡の戦略を知っていることで相手がどのようにナッシュ均衡から乖離していてどのようにその相手の弱みに漬け込んでお金をむしりとることができるのかもわかります。

まとめるとGTO,ナッシュ均衡を計算することで
①期待値が保障される戦略を知ることができる。
②GTO,ナッシュ均衡を知ることで相手の弱みがわかる
ということです
ここまで読んでくれた読者の中で疑問に思ってくれた方もいるかもしれません。

それってそんなにすごいか？
べつにナッシュ均衡知らなくても弱い奴わかるし
しかも0以上ってなんだよ
0だったら意味ねえじゃん

そうなんですよ。0だったら意味ないですよね。

しかしGTOを知るということがどのようなことなのか先ほどのグリコを用いて解説していきます。
先ほどジャンケングリコゲームにおけるGTOはグーを40%、チョキを40%、パーを20%、出す戦略であると述べました。

このグリコゲームではこのGTO通りプレイすると相手がグーしか出さないようなボンクラ相手でもEVは0です。

は？
あーね、そのGTOとやらは負けたくないチキンがやる安全策みたいなやつか

このように思ってくれたらこの記事を書いた甲斐があります。

ポーカーのような複雑でどのようにプレイすれば勝てるのか教えてほしいように感じてしまうゲームではグリコとは違い相手がGTO通りプレイしていたら相手のEVがプラスになることがあり得るのです。

というか世界中のどの人間のプレイヤーもGTO相手にはレーキを考慮しなくてもEVがマイナスになるのです。つまり、GTO通りプレイできればどの相手にもかてます。

グリコで言えば、グーには引き分けでパー、チョキには負けるみたいな手があるとします。

そんなクソ手誰が出すんだよ
相手がそんなことしたらそりゃGTOで期待値上がるわ

f:id:takoagemat:20180813034624p:plain

と思うかもしれませんが、ポーカーのような複雑でどのようにプレイすれば勝てるのかまるで分からないように感じてしまうゲームではこのようなことが日常茶飯事に行われているのです。自分も読者のあなたもどこかでこのようなクソ手みたいなものを頻度の差はあれど難しいポーカーではだしてしまっているのです。

ポーカーで言えば普通の場面でプリフロップでAAを降りるなどの行為ですね。

またGTOを知っていることでGTOから乖離している相手をexploit、搾取することができるのです。

グリコの例に戻ります。
二人でのグリコゲームで相手の戦略が全ての手を $\frac{1}{3}$ の確率でだす戦略だと仮定します。

再度になりますがジャンケングリコゲームにおけるGTOはグーを40%、チョキを40%、パーを20%、出す戦略であると述べました。

グリコのGTO解を知っていることで相手はパーを出しすぎていることがわかります。
そのためこちらはGTO解よりチョキを多く出す、つまりチョキを40%以上の確率で出すことで相手を搾取することができると考えられます。

実際この相手には100%チョキを出すことで一回のじゃんけんあたり期待値+1歩になります。

このような相手の戦略を固定した時の最適戦略の計算もpiosolverは当然できます。

いかがでしょうか。グリコゲームではGTO解、ナッシュ均衡を知っているからこそ相手の戦略のなにが弱みでどのように搾取すればいいのか情報を得ることができます。
逆にナッシュ均衡をしらないと頼るものはセンスぐらいでしょうか

ネジタルネイチャーなどと機械との親和性が大事だといわれ、多くの分野で人工物が人間を凌駕している現在においてセンスだけで挑むのは大変だと思います。

まとめるとGTOを学ぶということはポーカーそのものを学んでいるに等しいと自分は考えています。

ポーカーする友達がいないのでポーカー雑談とかできる方いたらDMなど待ってます笑
何か間違っている、疑問な点などあればコメントなどもお待ちしています。

統計は冷酷だ

ポーカー、ゲーム、サッカーなどについて考えていきたい。自分の為にもブログを更新していこうと思う。

PioSOLVER,GTOに関しての概要