您的位置 > 首页 > 商业智能 > AI又完成了一项“里程碑式”的挑战

AI又完成了一项“里程碑式”的挑战

来源:电子发烧友 | 2019-07-18 | 发布:ope电竞之家


CMU和Facebook联合打造了史上最强德州扑克AI,自对战零起点训练8天,在人机大混战吊打了各路职业牌手。这款名为Pluribus的AI重点解决了多人对局环境下的非零和博弈和隐藏信息推理问题,训练成本仅150美元。更多精彩AI资讯、话题,请浏览新智元和群。

AI又完成了一项“里程碑式”的挑战。

一款名叫“Pluribus”的AI扑克牌机器人在六人无限制德州扑克这项复杂游戏中,碾压了人类职业选手*—这是AI机器人首次在规模超过两人的复杂对局中击败顶级人类玩家。



这样的一项研究,你肯定会认为训练消耗的成本会非常大,对吧?

但是!恰恰相反!划重点:

Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元!

这与其他最近的AI突破性成果形成鲜明对比,其中包括那些涉及游戏中自对战的突破,训练成本动辄就需要几百万美元。

许多网友们纷纷感慨:“原来小资源的研究也能推动人工智能研究大步向前发展”。这项研究让人们对如何构建通用的人工智能有了更好的基础理解。

这项研究是由卡耐基梅隆大学与Facebook人工智能团队共同合作完成。目前,各大顶级期刊和知名媒体都在疯狂刷屏报道:



https://www.nature.com/articles/d41586-019-02156-9



https://science.sciencemag.org/content/early/2019/07/10/science.aay2400



https://www.techmeme.com/

那么这款德州扑克AI到底为何如此厉害?新智元带你慢慢揭秘。

Pluribus:面向“隐藏信息”更新算法,战胜职业牌手

几十年来,德州扑克一直是人工智能领域最难以攻克的重大问题之一。因为扑克对局涉及“隐藏信息”。你不知道对手的牌是什么,要想在牌局中获胜,需要成功运用bluff和其他多种策略,这些策略并不适用于国际象棋、围棋等对局。这使得德州扑克成为AI难以攻克的堡垒之一。

近年来随着技术的进步,AI在1V1德州扑克对局中,已经能击败顶级人类玩家。但如何开发出能够在1对多的牌局中战胜顶级玩家的AI,仍是研究人员不断努力的目标。

Pluribus是Facebook与卡内基梅隆大学合作开发的新型AI机器人,它成功实现了这一目标,击败了德州扑克精英人类玩家:比赛采用六人无限制德州扑克。Pluribus在“五个AI和一个人类玩家”和“一个AI 和五个人类玩家”的比赛中都击败了人类职业玩家。

在每个筹码价值1美元的假设下,Pluribus每手牌平均能赢5美元,在与五名职业玩家的对战中,每小时能赢 1000美元。可以说是取得了决定性胜利。

Pluribus在此前的德州扑克AI Libratus的基础上进行了几项创新,实现了这一成果,Libratus是2017年在双人无限注德州扑克中击败人类职业选手的AI,我们还借助了Tuomas Sandholm在卡内基梅隆大学研究实验室开发的其他算法和代码。

特别是,Pluribus采用了一种新的在线搜索算法,可以通过前面的几个步骤而不是仅仅搜索到游戏结束来有效地评估策略选择。Pluribus还针对涉及“隐藏信息”的对战使用新的、更快的自对弈算法。AI只需非常少的处理能力和内存就能进行训练,只需价值不到150美元的云计算资源。这种高效率与近期其他扑克AI项目形成鲜明对比,后者往往需要价值数百万美元的计算资源才能进行训练。

这些创新在德州扑克以外的领域也具有重要意义,因为双人零和博弈(一个玩家赢了,另一个玩家就要输)在休闲游戏中很常见,但在现实生活中非常罕见。而在真实场景中,比如对有害内容采取行动,应对网络安全挑战,以及管理在线拍卖、导航流量,这些行为通常涉及多个参与者,并涉及隐藏信息。我们的成果表明,AI算法可以在双人零和博弈领域之外,也达到超过人类的表现。

来自职业牌手的赞誉:和AI打牌压力山大

“与Pluribus比赛最激动的事就是应对其在翻牌前采取的复杂策略。与人类不同,Pluribus在翻牌前会多次加注。这与人类对局的风格完全不同,很有意思。”

Seth Davies,职业扑克选手

“我很高兴能够与机器人对战,这是一种独特的学习体验。我认为机器人玩得非常稳。当我的手牌不强时,AI总能逼我做艰难的决定,而且AI在拥有强手牌时总能赢到钱,AI做的很漂亮,这是一个有趣的挑战,我很高兴再次与它对战。”

Trevor Savage,职业扑克选手

“Pluribus是一个非常努力的对手,任何手牌你都很难压倒它。AI非常善于在河牌轮下小注。非常擅长在手握好牌时尽量多赢。”

Cris Ferguson,WSOP冠军

“这个AI就是个bluff怪物。我觉得它比大多数人更有效率。你和它对战总能感觉到很大压力,你知道它随时可能在bluff。”

Jason Les,职业扑克选手

“每当和机器人玩牌时,我会选择一些新的策略。作为人类,我认为我们倾向于为自己过度简化对局,让对局策略更易于使用和记忆,更倾向于走捷径。机器人就不会走这种捷径,它的每个决定背后都有一个极其复杂而平衡的策略树。”

Jimmy Chou,职业扑克玩家

“能与机器人对战,并看到它选择的一些策略真的令人难以置信。AI是德州扑克发展过程中的一个重要组成部分,在面向未来的这一大步中获得第一手经验真是太棒了。”

Michael Gagliano,职业扑克玩家

从双人对战到六人混战,产生了哪些新问题?

六人的德州扑克对战与之前的二人对战的AI基准测试相比,多了两个主要挑战。

一、不再只是双人零和博弈

此前,所有取得突破的AI仅限于那些只有两名玩家或两支球队参加的零和博弈对局(如跳棋,国际象棋,围棋、双人德州扑克,星际争霸2和Dota 2等)。

在这些对局中,AI可以采用一种称为“纳什均衡”的策略。在双人和双队的零和博弈中,无论对手做什么,只要采用足够精确的纳什均衡策略,就能保证不输。(例如,“石头剪刀布”的纳什均衡策略是以相同的概率随机出石头、布或剪刀。)

尽管在任何有限制的对战中都会存在纳什均衡,但在三个或更多玩家参与的游戏中,纳什均衡难以有效计算。此外,在有两个以上玩家参与的游戏中,即使在精确的纳什均衡策略下,有时也无法避免失败。

在六人制德州扑克中,目标不应该是确定特定的博弈论解决方案的概念,而是创建一个从长远来看,可以凭经验击败人类对手的AI。对于AI机器人来说,这通常被认为是“超人”的表现。

我们用来构建Pluribus的算法并不能保证在双人零和博弈之外的领域收敛到纳什均衡。尽管如此,Pluribus在六人德州扑克中采用的策略始终能击败精英专业玩家,因此这些算法能够在超级玩家零和游戏之外的更广泛的场景中产生超人策略。

二、要面对复杂环境下的“隐藏信息”

没有其他游戏像扑克一样体现“隐藏信息”的挑战,每个玩家都拥有其他玩家所缺乏的信息(手牌)。一个成功的AI必须会推理这个隐藏信息,并仔细平衡策略,以保持对自身信息的不可预测,同时仍然采取良好的行动策略。例如,采用bluff偶尔会有效,但总用bluff就会容易被人摸透,可能会导致大量损失。因此,有必要仔细在“bluff”和“手握大牌下大注”的概率之间取得一个平衡。换句话说,就是令不完全信息博弈中的行动策略,取决于选择某策略和选择其他动作的概率区分上。

而在完全信息博弈中,玩家不必考虑这一点。国际象棋中的好手就是好手。但我们不可能将特定德州扑克牌局中的最佳策略与德州扑克的整体策略区分开来。

像Libratus这样的德州扑克AI,结合了基于反事故遗憾最小化(CFR)理论中的合理的自对战算法和精心构建的搜索程序,来应对牌局中的隐藏信息。对于不完全的信息博弈,牌局中的玩家的增加,会让对局的复杂性呈现指数级增长。以前的技术无法扩展应用到六人对局中,即使计算量提升10000倍也不行。Pluribus使用的新技术,比以前的任何技术更好地应对这一挑战。

Pluribus对战策略:从零开始自对战,8天训练战胜职业高手

Pluribus在牌局中策略核心是通过自对战计算出来的,AI自己和自己进行对局,没有任何人类对局的数据作为输入。AI从零开始,一开始是完全是随机行动,随着牌技逐渐提升,学着确定哪些行动更好,确定各类行动的概率分布中哪些可以产生更好的结果。Pluribus使用的自对战版本是迭代蒙特卡罗CFR(MCCFR)算法的改进版。

上面的视频中显示了蒙特卡罗CFR算法通过评估实际和假设行动值,来更新遍历者策略的过程。在Pluribus中,出于优化目的,这种遍历实际上是以深度优先的方式完成的。

此时,探索其他假设的结果是可能的,因为AI正与自己进行对局。如果AI想知道选择了其他一些行动会发生什么事情,那么它只需自问应该如何回应该行动就行了。

在对局中的每个决策点中维持每个动作的CFR,需要的计算资源比宇宙中原子总数还多。为了降低游戏的复杂性,我们忽略了一些操作,并通过抽取将类似的决策点放在一起。在抽象之后,划分在一起的决策点被视为相同决策点。

Pluribus经过自对战,输出整个对战中的蓝图策略。在实际对局中,Pluribus使用搜索算法改进了这个蓝图策略。但是,Pluribus并没有根据其观察到的对手的倾向来调整策略。



上图显示了在64核CPU训练期间,Pluribus的蓝图策略的改进过程。绩效是根据训练的最终快照来衡量的。

Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元。这与其他最近的AI突破性成果形成鲜明对比,其中包括那些涉及游戏中自对战的突破,训练成本一般需要几百万美元。由于算法的改进,我们能够在如此低的计算成本下实现“超人”的表现。

超越人类的一个更有效的搜索策略

由于无限制德州扑克的规模和复杂性,蓝图(blueprint)策略必然是粗粒度的。

在实际游戏中,Pluribus通过实时搜索来确定针对其特定情况下的更好、更细粒度的策略,从而改进了蓝图策略。

目前,我们知道AI已经在许多游戏中大展拳脚,也使用了实时搜索,包括西洋双陆棋(double -ply search)、国际象棋(alpha-beta pruning search)和围棋(Monte Carlo tree search)。

但是,这些搜索方法对不完全信息博弈不起任何作用,因为它们没有考虑到对手在叶子节点之外转向不同策略的能力。这个弱点就导致搜索策略是非常脆弱且不平衡的,也因此使得AI无法解决这一挑战。

相反,Pluribus使用了一种方法,在这种方法中,搜索者明确地认为任何或所有玩家都可以在子游戏的叶子节点之外转向不同的策
本文已经过优化显示,查看原文请点击以下链接:
查看原文:http://www.elecfans.com/d/996039.html

看图学经济more

  • 【ope电竞之家】 P2P网贷行业流量之伤与评级之伤 08-10
  • 【ope电竞之家】 财富管理论:从理财师到智能投顾 08-10
  • 【ope电竞之家】 轮回的学生贷江湖,你可懂?(下) 04-05
  • 【ope电竞之家】 互联网票据理财之二:风险辨识不容易 03-30
  • 【ope电竞之家】 互联网票据理财之一:业务运作模式详解! 03-29
  • 京ICP备11001960号  京ICP证090565号 京公网安备1101084107号 论坛法律顾问:王进律师知识产权保护声明免责及隐私声明   主办单位:人大经济论坛 版权所有
    联系QQ:2881989700  邮箱:service@pinggu.org
    合作咨询电话:(010)62719935 广告合作电话:13661292478(刘老师)

    投诉电话:(010)68466864 不良信息处理电话:(010)68466864