当前消息!人工智能再次战胜人类玩家
2022-12-06 10:01:12 来源: 中国科学报
下棋、玩游戏,在与人类的博弈中,人工智能(AI)正在不断成长。近日,英国DeepMind公司的AI智能体DeepNash,就在西洋陆军棋(Stratego)中达到了专业级人类玩家的水平。该成果12月1日发表于《科学》。
事实上,在DeepNash攻克Stratego前,就有报道称AI能够玩“强权外交”这款类似的经典桌游。这是一款具有外交深度的游戏,玩家间存在合作与竞争关系,必要时须通过谈判结交盟友。
“近年来,AI掌握本质不同的游戏的速度相当惊人。”美国密歇根大学计算机科学家Michael Wellman表示,Stratego和“强权外交”这两款游戏大不相同,但它们都极具挑战性,与此前AI已经掌握的游戏也截然不同。
【资料图】
Stratego是一款需在信息缺失情况下进行战略思考的棋盘游戏,类似于中国的军棋。它要比此前AI掌握的国际象棋、围棋或扑克复杂得多。
在游戏中,双方各有40枚棋子,且彼此看不到棋子的真实“身份”。双方轮流移动棋子,来消灭对手的棋子,最终夺得对方军旗或消灭所有能动的棋子的一方获胜。因此,玩家需要进行战略部署、收集信息,并与对方博弈。
一局Stratego游戏中会有10535种可能的布局。相比之下,围棋的布局有10360种可能。此外,在Stratego中,AI需要推理对手超过1066种部署策略,这使德州扑克中初始的106种可能情况相形见绌。
“Stratego中可能出现的结果数量之多及其复杂性,意味着在信息完全的游戏中表现出色的算法,甚至在扑克游戏中表现良好的算法,在这款游戏中都不起作用。”DeepMind研究员Julien Perolat说。
所以Perolat和同事开发了DeepNash,该命名致敬了提出纳什均衡的美国数学家约翰·纳什。
纳什均衡是博弈论中一种解的概念,指满足以下条件的策略组合:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变),都不会提高自身的收益。
DeepNash将强化学习算法与深度神经网络相结合,以找到纳什均衡。强化学习包括为游戏的每个状态找到最佳策略。为了学习最佳策略,DeepNash已经与自己进行了55亿次博弈。
今年4月,DeepNash在网络游戏平台Gravon上与人类Stratego玩家进行了两周的比赛。在50场比赛后,DeepNash目前在所有Gravon Stratego玩家中排名第三。
“我们的研究表明,像Stratego这样复杂的涉及不完善信息的游戏,不需要通过搜索技术来解决。”团队成员、DeepMind研究员Karl Tuyls表示,“这是AI迈出的一大步。”
而曾于2019年报告了玩扑克的AI——Pluribus的Meta AI研究员Noam Brown团队,则将目光投向了一个不同的挑战:建立一个可以玩“强权外交”的AI。
“强权外交”是一个最多可由7位玩家参与的游戏,每位玩家代表第一次世界大战前欧洲的主要力量,游戏目标是通过移动部队控制供应中心。重要的是,该游戏需要玩家间进行私人交流和合作,而不是像围棋或Stratego那样进行双人博弈。
“当进行超过两人的零和博弈时,纳什均衡思想对游戏就不再有用了。”Brown说,他们成功训练出了AI——Cicero。在11月22日发表于《科学》的论文中,该团队报告称,在40场游戏中,“Cicero的平均得分是人类玩家的两倍多,在玩过一场以上游戏的参与者中排名前10%”。
Brown认为,可以与人类互动并解释次优甚至非理性人类行为的游戏AI,可以为其在现实世界的应用铺平道路。(徐锐)
相关论文信息:
https://doi.org/10.1126/science.add4679
《中国科学报》 (2022-12-06 第2版 国际)
为您推荐
精彩放送
热门文章
-
实控人变更、业绩颓势明显,海南椰岛的困局何解?
-
天天即时:药师帮再递上市申请,持续亏损恐难破局
-
每日财报|贵州茅台披露近35亿投资计划、乔梁任中葡股份董事长
-
今日视点:剑南春“反向发力”是无奈之举,还是有意为之
-
天天快播:逆势开了2.2万门店的蜜雪冰城 靠什么盈利?
-
小微还未挑起大梁,信也科技三季度增收未增利
-
晨光纸业的“远虑近忧”:被列入观察名单、债务压顶
-
前沿热点:个人养老报表8 | 养老规划四大“心魔”要不得
-
世界即时看!业绩漂亮的药明康德 为何留不住“变心”的股东
-
科技成长旗手向伊达掌舵 银华创新动力优选12月1日起发行
-
环球今亮点!个人养老报表7 |“四步走”制定个人养老金规划
-
舍得酒业的“老酒战略”只是一个故事
精彩图片
热文
-
当前时讯:2022年12月5日河南省PA66价格最新行情预测
-
2017年3月:国内25-35万汽车销量排名,昂科威销量达21436辆,位居榜首
-
当前播报:2011年12月:全国各省市燃料油产量排名,辽宁省当月产48.4万吨登顶
-
每日资讯:2011年12月:全国各省市石脑油产量排名,上海市当月产47.3万吨登顶
-
2011年12月:全国各省市煤油产量排名,广东省当月产34.8万吨登顶
-
2011年12月:全国各省市柴油产量排名,山东省当月产217.5万吨登顶
-
【环球新要闻】信用卡逾期一天怎么算利息?利息太高怎么申诉?
-
2022年美甲行业发展现状
-
2022年大豆行业发展趋势
-
面板灯企业排名
-
【新视野】宠物服饰企业排名
-
2011年12月:全国各省市汽油产量排名,山东省当月产113万吨登顶
-
焦点!历时28个月 中俄东线天然气管道穿越长江隧道全面贯通
-
天天热点!欠多少钱才能停息挂账申请?影响信用吗?
-
世界今日讯!信用卡无力偿还怎么办理停息挂账?被起诉有什么影响呢?
-
【全球速看料】2022民法典新规网贷无力偿还政策是什么?会上门催收吗?
-
恶意催收怎么投诉比较好呢?有什么解决催收办法?
-
全球最新:信用卡逾期4天怎么补救呢?办其他信用卡受影响吗?
-
2022年新材料行业发展趋势:新材料产业保持良好发展势头
-
微资讯!2022年外墙涂料行业前景:外墙涂料市场增长迅速
-
全球微头条丨2022年半年度报河南地区A股所有者权益(或股东权益)合计排名前十大上市公司
-
2011年12月:全国各省市原油产量排名,黑龙江省当月产337.1万吨登顶
-
2011年12月:全国各省市天然气产量排名,陕西省当月产29.6亿立方米登顶
-
信用卡有逾期怎么处理?信用卡逾期三个月怎么处理?
-
怎样解决信用卡逾期?信用卡逾期多久会给家人打电话?
-
世界热文:我国在国际上首次完成水稻“从种子到种子”全生命周期空间培养实验
-
家人信用卡逾期被起诉该怎么办?信用卡逾期利滚利非常高怎么解决?
-
我信用卡逾期三个月了已经被起诉了怎么办?信用卡逾期还清后征信的多久能恢复?
-
信用卡逾期了怎么处理?信用卡逾期被起诉该怎么办?
-
环球观热点:【数博对话“1+1”】肖飒:数字藏品正处于“回暖期”,交易平台是否合法由买卖行为本身决定
-
最新:各国新材料产业政策持续推出 市场竞争日趋剧烈
-
快消息!切削液海外品牌占据主要市场 行业消费量呈现持续增长
-
工业尿素市场销售量波动变化 农业施肥是最主要下游应用
-
世界视点!美甲行业发展日趋成熟 市场发展前景依旧广阔
-
天天快消息!工业甘油市场需求增长迅速 市场供应竞争将加剧
-
FXTM富拓:外汇市场诱惑大,股票交易平台选择需慎重!
-
快播:捕捉精神疾病的“蛛丝马迹”,AI快人一步
-
法治护航专精特新企业
-
环球关注:在“家门口”建一朵医疗专属云
-
今日视点:剑南春“反向发力”是无奈之举,还是有意为之
-
航天新征程|硕果累累!科学家已发现返回水稻特殊现象
-
天天快播:逆势开了2.2万门店的蜜雪冰城 靠什么盈利?
-
小微还未挑起大梁,信也科技三季度增收未增利
-
景栗科技创新私域医疗多触点随访服务
-
威锐股份——无线智联世界,碳索绿色未来
-
京津冀协同发展项目融资余额近6500亿元
-
天津存款余额突破4万亿元 同比增长11.9%
-
环球热文:《天津市轨道交通运营安全条例》2023年起施行
-
【天天报资讯】安徽:扩大有效投资 激发稳增长动能
-
福建高速首批新能源汽车换电站开工建设