如果以后要再拍一版《赌神》,也许主角们要面对的大BOSS不再是人类了。当地时间1月30日,在美国匹兹堡的大河赌场(Rivers Casino),一个名为Libratus的人工智能在共计12万手的一对一无限注德州扑克比赛中击败了四名顶尖人类高手,斩获20万美元奖金。
这场德扑界的人机“华山论剑”名为“Brains Vs. Artificial Intelligence: Upping the Ante”(人脑大战电脑:升级版)。经历了20天的较量后,在个人战绩上,四名职业玩家Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou均不敌人工智能;在总体战绩上,四名人类玩家共计输给Libratus176万美元筹码。
输给人工智能的人类是什么心情?
在这场德扑领域的人机巅峰对决中,人类可谓是惨败。在共计20个比赛日中,人类团队只在其中4天里赢得了筹码。
1月30日傍晚,完成了3万手比赛的Jimmy Chou筋疲力尽地告诉媒体,“这太难了。它(Libratus)不仅不留空子给我钻,而且我真的觉得它在钻我空子”。
Daniel McAulay说道,“在第10比赛日的时候,我还乐观心很大,想把那AI拉下马”。他们绞尽脑汁,每天比赛后都开会到深夜,但想出的战术没一个管用的。“是啊,我们就是完败,还能说啥呢”。
而在四名人类高手中最终战绩最佳的Dong Kim或许“早已看穿了一切”,在赛程过半时,他就认定人类已经没有机会了。
Jason Lee下场后则迫不及待地想去找Libratus的开发者们聊一聊,“我就是想确定一下他们是不是把计算机偷偷塞在我们脑子里了,因为它改变战术的时候就像是针对我们每个人发动的 人身攻击 ”。
从“溜进”到“均衡”:人工智能一年半逆袭人类
Libratus的开发者是美国卡内基梅隆大学(CMU)的计算机系教授托马斯 桑德霍姆(Tuomas Sandholm)和其研究生诺姆 布朗(Noam Brown)。
事实上,在一年半以前,桑德霍姆就曾带着AI来“踢馆”,但那次比赛的结局完全不同。2015年4月24日至5月7日,同样是在匹兹堡的大河赌场,桑德霍姆团队开发的人工智能Claudico在连续两周的无限注德州扑克比赛中轮流与四名排在世界前十的顶尖扑克选手(Doug Polk,Dong Kim,Bjorn Li和Jason Les)单挑80000回合。当时,人类几乎赢下了每个比赛日,最终以73万美元的筹码差完胜Claudico,以个人战绩排名而论,也只有一名人类选手不敌Claudico。
因此,当时AI专家纷纷预测,计算机攻下德州扑克起码还需要5年。这次开赛前,Libratus也不被看好,博彩公司为人类胜出开出的盘口从4赔1到5赔1不等。
那么,Libratus是如何在短短一年半内逆袭人类的呢?
首先,是计算强度的大大提高。无论是Libratus还是Claudico,背后都是匹兹堡超算中心。这次截至比赛结束,Libratus 占用了超级计算机Bridges的2000万到2500万“核心小时”,是之前Claudico的10倍。
其次,桑德霍姆也在算法上做出了一些改进。除了采用一种新的平衡近似方法之外,也引进了在后期牌局中分析可能结果的几种新方法。
Claudico和Libratus这两个名字都源自拉丁文,Claudico意为“溜进”。而“溜进”在德扑中指代一种翻牌前的策略,即玩家不加注,只跟进1倍大盲注。而Claudico机如其名,在实战中擅长将“溜进”策略运用到极致。
Libratus在拉丁语中的意思则是“均衡的”。这个名字一语双关,首先,它点出了桑德霍姆将纳什均衡等博弈论运用在人工智能算法上;其次,Libratus的“套路”很深,能平衡地使用各种技巧,让对手吃不准。
纳什均衡学得好,诈唬死你没商量
百度首席科学家吴恩达(Andrew Ng)说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”
诈唬(bluffing)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。
在本次比赛中,人类玩家明显地感觉到Libratus善于诈唬及不被诈唬。这得益于开发者们教会它运用博弈论和战略决策理论,在充满不确定性的情景中找到平衡风险与收益的最佳策略,即所谓的“均衡”。
值得一提的是,这次比赛是以镜像局的方式进行的。在每一对镜像局中,AI和人类玩家的手牌是对调的。这种比赛方式不仅消除了抓牌运气的影响,也为我们了解AI的出牌风格提供了生动的视角。这比如其中一盘,人类高中Jason Lee起手牌是一对10(非梅花),前三张公共牌为K、9、4(其中有两张梅花),第四张和第五张都开出了非梅花牌。此时,AI突然压上所有筹码,Lee选择不跟。通过隔壁的镜像局,我们发现AI当时的起手牌确实是两张梅花,也就是,AI最后在凑同花失败的情况下,成功通过诈唬赢下了一局。而在镜像局中,AI早早为手上一对10下了重注,最后人类玩家同样选择弃牌。
在现实生活中或许比阿尔法狗更有用
尽管就表面来看,Libratus这次夺魁像是阿尔法狗战胜李世石的翻版,无非是再一次证明了人类玩游戏玩不过计算机。但事实上,解决棋类和解决扑克这两个问题对人工智能而言,性质和路径非常不同。
就路径来看,我们已经发现相比起孕育在时髦的深度学习土壤中的阿尔法狗,Libratus或许更加像一个依赖超算能力的“经典人工智能”(Good Old-Fashioned Artificial Intelligence)。除此之外,阿尔法狗通过计算每一步的胜率来进行决策,但Libratus面临的决策情景则复杂得多,为此,开发者不得不引入博弈论来对问题进行处理。
这也是人类在德州扑克阵地上比围棋多撑了一会儿的原因。此前20年间被人工智能攻克的西洋双陆棋、跳棋、国际象棋和围棋都是“完美信息”游戏,所有玩家在游戏中能获得的确定性信息是对称的。人工智能掌握这些游戏的难度,主要取决于游戏中需要做出的决策点(decision points)的数量,这决定了计算机需要的计算量。围棋是上述几种棋类中决策点数量最多的,因而也是最后被人工智能掌握的。一盘围棋游戏约包含有10的170次方个决策点。
而计算机之父冯 诺依曼说过,“现实世界与此不同,现实世界包含有很多赌博、欺骗的战术,还涉及你会思考别人会认为你将做什么。”德州扑克就是这样一种更接近现实世界的“非完美信息”游戏,玩家只掌握不对称的信息,他不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。这些问题在计算范围之内。
因此,虽然一对一无限注德扑游戏中包含10的160次方个决策点,要少于围棋,但它对人工智能的推理能力提出了更高的要求。
而通过博弈论让人工智能学会找到平衡风险与收益的方法,不仅会在牌桌上赢得筹码,也将在现实生活中找到用武之地。这也是匹兹堡超算中心同意与桑德霍姆合作的原因。毕竟商业谈判、网络安全、出租车自动驾驶、机器人规划、医疗规划等领域都需要在“不完美信息”情景中做出决策。诺姆 布朗认为,现在人工智能已经在围棋、扑克等特定任务上媲美甚至超过人类,但我们最终追求的是能像人类一样适应现实生活中各种不确定性和完成各种任务的通用人工智能(GAI),而Libratus就在应对不确定性这个问题上走出了关键一步。从这个意义上说,会玩德州扑克的AI或许比会下围棋的AI更有用。
(原标题:AI赌神诞生:匹兹堡赌场德扑人机大战落幕,人工智能完胜)
2017-01-31 21:54:00 来源: 澎湃新闻网(上海)
发帖时间:2017-02-02 21:36:59
最新修改时间: