Facebook ReBel通用AI算法可能会在扑克中击败您
来自Facebook AI Research的一组研究人员现在已经创建了一种更通用的AI算法,称为ReBel,它可以比至少某些人类更好地玩扑克。根据最近发表的有关该主题的研究论文的报道。该团队由Noam Brown,Anton Bakhtin,Adam Lerer和Qucheng Gong组成。
更具体地说,该团队声称,新的AI可以比以前的任何扑克专用AI更好地玩单挑德州无限德州扑克游戏。该团队说,这是一个大胆的主张,但已经得到了实验的支持。研究人员让ReBel与Dong Kim和其他三位顶级人类玩家对垒,后者比以前的AI掌握的领域知识更少。作为参考,在平视扑克方面,金先生被认为是世界上最好的球员之一。
ReBel的演奏速度超过了每手2秒,而在7,500手牌中用不着超过5秒。但是结果更加令人印象深刻。Facebook以前的扑克人工智能Libratus在千分之一的盲注中获得了147分的总得分。它以29分的优势击败了Kim,平均偏差为78分。相比之下,ReBel得分为165分,标准偏差为69分。
Facebook ReBel AI如何工作?
ReBel通过扩展与“游戏状态”相关的概念并结合了游戏和策略的常识来有效地工作。更简洁地说,它通过训练两种AI模型进行操作,一种通过增值学习来实现价值,而另一种则用于政策。在游戏过程中都使用这两种模型来生成公共信念状态。
这意味着它可以有效地在可能的动作和游戏状态的定义的有限序列上创建概率。在扑克中,公众信仰状态由参与玩家可以做出的各种决定组成。也考虑了给定牌局的潜在结果,以及总彩池和筹码。
ReBel使用所有这些信息来创建基于初始PBS的“子游戏”。整个过程中都使用强化学习来发现新的价值,并向价值AI模型添加示例。重复直到AI达到指定的准确性阈值为止。
如何使用此AI?
如上所述,与为玩游戏而构建的其他AI相比,ReBel不太依赖领域知识。就是说,它比一般的游戏规则更普遍。如前所述,这又回到了扑克游戏中存在的不确定性和未知信息。
综上所述,该AI与Google于2017年创建的更专业的AI截然不同。
相反,研究人员指出ReBel推动了AI算法向更通用的方向发展。即,针对涉及预定因素较少的环境的用例。具体而言,研究人员指出“不完美的信息多主体交互”。他们列出了用例,例如拍卖,谈判,网络安全和自动驾驶汽车。
这并不是说该AI会很快出现并在现实世界中得到解决。研究人员指出,Facebook当然不会发布ReBel代码库。这只会为想要欺骗真实,高风险游戏的系统的用户铺平道路。但是,研究人员断言,该算法确实是进行诸如上述技术之类的进一步研究的合适领域。