今晚腾讯AI Lab线上分享：深度强化学习在王者荣耀虚拟环境构建AI

机器之心发布

机器之心编辑部

在机器之心最新的一期 AAAI 2020 线上分享中，我们邀请到了腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家介绍他们王者荣耀 AI 智能体研究。

游戏，一直是人工智能技术研究与落地的重要场景之一。过去几年，DeepMind 围棋项目 AlphaGo、星际争霸 AI AlphaStar、OpenAI Dota2 项目 OpenAI Five 等游戏 AI 吸引了全球人工智能社区的关注。

而在国内，腾讯 AI Lab 也一直致力于 AI+游戏的研究。近日，基于腾讯天美工作室开发的热门 MOBA 类手游《王者荣耀》，腾讯 AI Lab 公布了一项用深度强化学习来为智能体预测游戏动作研究成果，论文《Mastering Complex Control in MOBA Games with Deep Reinforcement Learning》已被 AAAI 2020 接收。

在机器之心最新的一期 AAAI 2020 线上分享中，我们邀请到了论文一作、腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家介绍他们的研究成果。

今晚腾讯AI Lab线上分享：深度强化学习在王者荣耀虚拟环境构建AI

个人简介：叶德珩（Deheng Ye）博士，现任腾讯 AI Lab AI+游戏领域高级研究员，主要工作方向是机器学习在 AI+游戏领域的技术研究与应用探索，涉及强化学习、模仿学习、领域数据挖掘、多智能体决策等。

叶德珩于 2016 年在新加坡南洋理工大学计算机科学系取得博士学位，期间的研究方向为软件相关知识挖掘和代码挖掘。他曾担任 IJCAI，AAAI 等学术会议的程序委员会成员。

演讲概要：多人在线战术竞技游戏（MOBA）已经成为检验前沿人工智能的动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门 MOBA 游戏《王者荣耀》，腾讯 AI Lab 正努力探索强化学习技术在复杂环境中的应用潜力。本文即是其中的一项成果，研究了使用深度强化学习来为智能体预测游戏动作的方法。

具体来说，在这篇论文中，我们研究 MOBA 1v1 游戏中 AI 智能体的复杂动作控制问题。这个问题有着比传统 1v1 游戏，例如围棋、将棋、Atari 等，更为复杂的状态和动作空间，从而使得 AI 的策略学习十分困难。我们从系统和算法的层面，提出了一个强化学习框架来研究这个问题。我们开发了一个高可扩展低耦合的强化训练系统；并提出了一系列的算法创新，包括一个 actor-critic 神经网络，控制依赖的解耦，目标注意力机制，动作空间剪枝，dual-clip PPO 等。在王者荣耀真实游戏环境中的测试显示，我们训练的 AI 智能体能在不同类型的英雄上战胜顶尖职业选手。

论文地址：https://arxiv.org/abs/1912.09729

时间：北京时间 2020 年 1 月 2 日 20:00-21:00

AAAI 2020 机器之心线上分享

2020 年 2 月 7 日-2 月 12 日，AAAI 2020 将于美国纽约举办。不久之前，大会官方公布了今年的论文收录信息：收到 8800 篇提交论文，评审了 7737 篇，接收 1591 篇，接收率 20.6%。

为向读者们分享更多的优质内容、促进学术交流，在 AAAI 2020 开幕之前，机器之心将选出数篇优质论文，邀请论文作者来做线上分享。整场分享包括两个部分：论文解读和互动答疑。

线上分享将在「AAAI 2020 交流群」中进行，加群方式：添加机器之心小助手（syncedai4），备注「AAAI」，邀请入群。入群后将会公布直播链接。