Skip to main content

扑克的本质笔记(5)

Posted in

上集说到q1=q2=1/3是BU的“中立策略”,也叫“优化策略”,英语就是indifferent, 或者 optimal strategy。optimal很多地方翻译成“最优”策略,但是汉语的“最优”容易跟best(最佳)相混淆。其实如果对手不是在打优化策略的话,你的best(最佳)策略反而不是optimal(优化)策略,而是最能反制对手策略的策略。所谓优化策略,就是不能被对手所利用的策略。即使你明明白白的告诉你的对手,他也没有任何的制服你的办法。这就是优化策略的魅力所在。

我们已经看到了BU的优化策略是q1=q2=1/3。那么,UTG的优化策略是什么?或者说,UTG有没有优化策略?

重新回忆一下UTG的EV公式:

UTG的EV = 1/6 * [ p1(1-3q2) + p2(3q1-1) + p3(q2-q1) -q1] (单位:100$)

我们把它改写一下,提取出q1和q2,得到:

UTG的EV = 1/6 * [q1(3p2 − p3 − 1) + q2(p3 − 3p1) + (p1 − p2)].(单位:100$)

要使UTG策略优化,也就是要使UTG的EV跟BU的策略无关,也就是说,两个系数必须等于零。

所以我们有: 3p2-p3-1 = 0, 同时 p3-3p1 =0

这是一个三元一次方程组。根据中学数学,(或者线性代数)如果三元一次方程组只有两个式子,那么它有无穷多解。也就是说,UTG的优化策略不止一个,而是无穷多个。

只要UTG采用这些优化策略中的任意一个,他的EV就是1/6 (p1-p2),而与BU怎么玩没关系。

让我们举个例子来看。假设UTG首先随便决定一个他拿到K时bet的概率p3,然后根据他的优化策略组,他决定了p1和p2分别是:
p1 = 1/3 p3
p2 = (1+p3)/3

这时,他的EV就是:1/6 (p1-p2) = 1/6 [ 1/3 p3 - (1/3 p3 + 1/3)] = -1/18 (根据优化策略的特性,他所有的优化策略都是-1/18的EV)

举一个实际的例子,如果UTG p3=1 (100%的 bet K),那么他应该选1/3 的时间bluff J,2/3 的时间call 2。
假如他p3=0 (从来不bet K),也可以,但是他要从不bluff J,1/3的时间call 2。

以上两种策略,貌似有很大区别,一个凶,一个软;一个松,一个紧。其实他们是完全“等价”的。长期以来,两者都是给UTG带来-1/18的收益,无论dealer怎么打。我们在扑克桌上,会看到松凶的赢家,也会看到紧软的赢家,大概的道理就是这个。但是你凶狠的bet你的nuts的时候,(面对善于观察的对手)你必须要适当bluff你的差牌;当你绝不bluff的时候,你也要尽量慢玩一些nuts。当然真正的扑克要复杂的多,考虑因素也多得很,这只不过是极端抽象的一个模拟。

如果UTG选择的策略不在他的“优化策略组”中,他就等于是在犯错误,BU就可以抓住他的错误以提升EV。例如,他拿Q的时候call的太少:p2 < 1/3 p3 + 1/3。根据 EV公式,

UTG的EV = 1/6 * [q1(3p2 − p3 − 1) + q2(p3 − 3p1) + (p1 − p2)].(单位:100$)

BU发现q1的系数小于零,他就可以让q1=1,永远bluff J,以最小化UTG的EV(同时最大化自己的EV)。那么BU的q2应该选多少?我们再返回去看看以p为变量的EV公式:

UTG的EV = 1/6 * [ p1(1-3q2) + p2(3q1-1) + p3(q2-q1) -q1] (单位:100$)

BU发现,他只要让q2=1/3 , UTG的p1部分就完全失效了。也就是说,q2=1/3 会“孤立”出UTG的错误(call太少),以充分利用。这时,UTG的EV是

1/6 [2p2 - 2/3 p3 -1] < - 1/18

BU此时的策略并不是优化策略。为了抓住UTG的错误,BU自己也要偏离优化策略。这给我们有益的提示:面对强手,我们要尽量采用优化策略,不让对方抓住自己的漏洞;面对弱手(容易犯错误),我们也要有意识的偏离优化策略,来最大化自己的利益。如果面对一个陌生人,应该首先采用优化策略,等摸清对方的路数以后再采取偏离优化的“克制”策略。可以想象,如果两台有自我学习完善反馈功能的计算机打这个游戏,最终结果一定是两者都打优化策略,UTG位置稳定的输-1/18给BU。而Button是轮流转的,所以两者谁也赢不了谁。

这个启发对headsup最大。而多人扑克,所谓的优化策略很难定义,你对一个位置的优化策略可能是对另一个位置的有漏洞的策略。如果桌上既有用优化策略的,也有偏离优化策略(犯错误)的,那你应该抓住犯错误者的错误,但是同时把你的错误暴露给优化策略者呢,还是应该忽略犯错误者的错误,自己也打优化策略呢?或者干脆有一个折中的策略,让你能对两者的收益之和最大化呢?如果以后有机会,我弄清楚了这个问题,再汇报吧。