发布时间:2023-12-04 00:10:01源自:http://www.zuer8.com阅读
11月28日,我国知名科技巨头腾讯 AI Lab 与热门 MOBA 手游《王者荣耀》联合推出了备受瞩目的战略协作型 AI 「绝悟」的全新升级版「绝悟完全体」。这一突破性的 AI 技术的问世不仅令全球瞩目,更以其惊人的表现力和卓越的技术实力展示了我国 AI 领域的强大实力。 「绝悟」自诞生以来,凭借其强大的学习能力、出色的策略制定能力和精准的操作执行能力,已经在 KPL 秋季总决赛等赛事中崭露头角,甚至一度以惊人的操作赢得了观众们的惊叹。而此次推出的「绝悟完全体」,更是通过一系列重大技术创新,实现了英雄池的全面解锁,使得 AI 能够真正掌握并运用所有英雄的技能,从而大大提升了其在游戏中的表现力。 此外,「绝悟完全体」还通过对禁选英雄博弈策略的优化,使得 AI 能够更加准确地判断和选择出最佳的英雄组合,从而进一步提升其在游戏中的竞争力。这一系列的技术创新和优化,无疑将为 AI 在复杂策略、团队协作和微观操作等方面的应用带来全新的可能,也预示着我国 AI 领域的发展正在进入一个新的阶段。
【导语】11月28日,由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI「绝悟」推出了升级版本「绝悟完全体」。新算法将 AI 可用英雄池数量从 40 个增至 100+ 个,同时还优化了禁选英雄博弈策略,相关研究已成功被 AI 顶级会议 NeurIPS 2020 和顶级期刊 TNNLS 收录。
2018年KPL秋季赛上,低调出战的“绝悟”让人印象深刻。它并非人类选手,而是一款AI。接下来让我们看看它的实力如何:AI达摩在红BUFF处漂亮地蹲下,然后用大招将赵云推上墙,并利用闪现秒杀了所有人。这一幕似乎在哪看过呢?没错,TS暖阳的操作也曾如此潇洒!此外,AI还学习了hero久诚的一些经典操作:AI干将莫邪与AI达摩的无敌配合,瞬间击败对手,并在面对敌方项羽和牛魔两人的围攻时,从容逃脱,令人印象深刻。
AI战队凭借出色的团队配合成功逆袭,赢得了比赛。“绝悟”是由腾讯AI Lab与王者荣耀共同研发的策略协作型AI,展现了腾讯在深度强化学习、多智能体决策等方面的国际级AI研究水平。11月28日,腾讯宣布,“绝悟”推出了升级版——“绝悟完全体”。没错,它变得更加强大了!并且,现在就可以在王者荣耀App中体验了。从11月14日至30日,绝悟在20个关卡中的能力将逐渐提升,最强大的20级将在11月28日开放,欢迎5V5组队挑战。此次升级版带来了两项创新:1. 突破可用英雄限制,将英雄池数量从40增加到100+,使AI可以全面掌握所有英雄及其技能,以应对高达10的15次方种英雄组合的变化;2. 全新的算法使得AI在复杂策略、团队协作以及微观操作方面展现出更强大的能力。体验时间从11月14日至30日,在这段时间内,绝悟的能力将不断提高,最强大的20级将于11月28日开放,接受5V5组队挑战。
禁选英雄(BanPick,简称BP博弈策略)是一种综合考虑自身技能与对手情况的多种因素,选出最优英雄组合的策略。在王者荣耀中,如果每个职业都有4个紫色熟练度英雄,就可以解锁「全能高手」称号。但是,由于练习时间和精力的限制,很少有人能够精通所有英雄。然而,「绝悟」实现了这一点。在一年内,技术团队让AI掌握的英雄数量从1个增加到100+个,完全解禁英雄池,这个版本因此被称为「绝悟完全体」。
绝悟AI的能力进化路线是从MOBA新手玩家到职业顶尖水平的一代宗师。与此版本相关的强化学习相关研究被AI顶级学术会议NeurIPS 2020收录,监督学习(SL)相关研究也被顶级期刊TNNLS收录,这反映了腾讯国际一流的AI研究和应用能力。
由于MOBA游戏本身的复杂性,现有工作无法很好地解决智能体阵容组合数随着英雄池扩大而爆炸增长的问题。例如,OpenAI的Dota AI只支持17名英雄。目前,还没有任何现有的AI系统能够掌握完整的无限制MOBA游戏。
为了应对多英雄组合问题,技术团队首先引入了「老师分身」模型,每个AI老师在单个阵容上训练至精通,然后引入一个AI学生来模仿学习所有的AI老师,最终让「绝悟」掌握了所有英雄的所有技能,成为一代宗师。
团队的长期目标是让「绝悟」手握强兵,学会所有英雄的技能,并且每个英雄都能达到顶尖水平。为了实现这一目标,我们在技术上进行了三项重要的突破:
我们构建了一个最佳神经网络模型,该模型可以适应 MOBA 类任务,具有强大的表达能力,并且能够精细地建模英雄的操作。这个模型融合了许多 AI 方法的优势,具体来说,它引入了长短时记忆网络(LSTM)以优化时序信息的处理,选择了卷积神经网络(CNN)来编码空间特征,并使用了注意力(Attention)方法来强化目标的选择,采用了动作过滤(Action Mask)方法来提高探索效率,设计了分层动作来加快训练速度,并利用多头值估计(Multi-Head Value)方法来降低估计方差等。
我们研究出了拓宽英雄池,让「绝悟」掌握所有英雄技能的训练方法——CSPL(Curriculum Self-Play Learning,课程自对弈学习)。
CSPL 的设计思想是任务由易到难,模型从简单到复杂,知识逐层深入。英雄池的规模是 OpenAI 的 2.4 倍,英雄组合的复杂度提升了 2.1 * 10^11 倍。我们还邀请了一些《王者荣耀》的职业选手与我们的 AI 对弈,他们被鼓励使用自己擅长的英雄,并尝试不同的游戏策略进行测试。在 10 周的时间内,总共进行了 42 场比赛,而 AI 赢得了 40 场。
2020 年 5 月 1 号到 2020 年 5 月 5 号,我们将 AI 部署到了《王者荣耀》和玩家公开的对战平台,进行了挑战。
为了严格评估AI是否能应对多样化的高水平策略,只有满足条件的顶尖玩家才能参加(玩家可多次参与)。最终,该AI与顶尖玩家进行了642,047局对抗,其中AI获胜627,280局(胜率97.7%,置信区间[0.9766, 0.9774])。相较于其他公开游戏AI测试(如AphaStar和OpenAI,分别进行了90,000和7,257场比赛,参与者无需具备特定游戏水平),我们的绝悟在1至19级的各个关卡上均有多个由监督学习训练而成。今年11月14日推出的绝悟从第1级到第19级,多个关卡均采用监督学习训练。一篇被顶级期刊《TNNLS》收录的论文名为「使用监督学习在王者荣耀中达到人类高手水平」。这篇论文首次提出了JueWu-SL(绝悟监督学习版——首个利用监督学习在MOBA游戏中达到人类高手水平的AI系统。论文中首次提出了将多模态特征表示游戏状态,利用深度卷积和全连接神经网络同时对大局观和微观策略进行建模,并提出了一种基于场景采样的数据预处理方法,以提高AI智能体在不同场景下的能力。通常而言,监督学习是构建AI智能体的第一步,在很多游戏中,借助监督学习可以直接使智能体达到人类高手水平。
在MOBA游戏中,由于经验丰富的玩家通常会在开始行动前,先判断游戏局势。因此,有效的动作(标签如果被正确提取,应该本身就包含了顺序信息)的多视角意图标签可以从这个意义上说,人类专家的游戏知识可以以监督的方式被“提取”。
具体来说,假设有准确标注的标签,其中包含了智能体的策略和具体行动,以及每个时间片上每次团战的精确表达,那么在有充足的训练数据的情况下,监督学习就能潜在地提取到从团战到标签的有效映射。然而,这种映射的提取非常困难,因为要同时建模玩家的大局观和微操策略。
研究者邀请了一支荣耀王者水平的高分段玩家组成的队伍与JueWu-SL进行了反复测试,结果如下:
从上图中可以看到,AI取得了绝大部分的胜利。需要说明的是,其中第5、6局,人类采用了入侵野区然后中路推进的战术,迅速拉开经济和经验,使得AI落败。为了应对这个问题,研究者进一步对野区进行了精细化的数据场景分割采样。而后续4局AI都取得了胜利,对局观察发现AI已经学会如何应对入侵野区的打法。
图:达摩蹲草埋伏击杀赵云
大量的实验表明,这是监督学习AI智能体首次在MOBA游戏达到人类业余顶尖高手水平。JueWu-SL
能提供许多MOBA游戏AI研究的启示。例如,网络结构可用于强化学习模型的策略网络。此外,这种模型可用于强化学习模型的初始化,并可作为对手来帮助强化学习训练。未来,研究者还可考虑将监督学习和强化学习相结合,以进一步提高AI的能力。从长远角度看,监督学习和强化学习的结合将成为推动AI实现通用人工智能这一终极目标的有力工具。有了绝悟这样的强大助手,再加上其他专家的辅助,一代宗师的修炼之路可谓是势如破竹。
上一篇: 微信搜一搜:如何让公众号文章在一秒内获得大量阅读量?"
下一篇: 请问互联网广告的作用是什么?
猪儿生活 Copyright©2018-2019 All Rights Reserved
免责声明:本站所有图片、文字除注明原创外均来源于互联网,版权归原作者所有,若侵犯到您的权益,请立即联系我们删除,谢谢合作! 琼ICP备2023010869号-5