演讲实录丨安波副教授：分布式人工智能进展与趋势

2020年11月20日，由中国科学技术协会主办，中国国际科技交流中心、中国人工智能学会、新加坡通商中国承办的“中新数字经济与人工智能高峰论坛”云端召开。主题报告环节，新加坡南洋理工大学人工智能研究院联席院长校长委员会讲席副教授安波为我们带来了《分布式人工智能进展与趋势》的精彩演讲。

安波

新加坡南洋理工大学人工智能研究院

联席院长校长委员会讲席副教授

以下是安波副教授的演讲实录：

很荣幸得到这个机会和大家分享关于分布式人工智能进展和趋势的一些看法。期望听完我的分享之后，大家能理解分布式人工智能是什么，为什么要care 这个领域，它最近有什么样的一些进展，以及未来可能会有什么样的一些挑战。

过去这些年AI 的进展主要体现在一些比较简单的场景。比如，自然语言处理是相对比较静态的数据；或者围棋的博弈，只有两个player，并且所有对决策重要的信息都可以直接观测到。未来要考虑更加复杂环境下的AI 系统或者一些应用，这个环境是不确定的，甚至是完全open 的（open 意味着我们没有办法感知建模）。另外这个环境里面有多个player，这些参与方之间是竞争的，我们采取的策略是需要序贯的，同时需要进行分布式的优化。这样复杂的问题是分布式人工智能所研究的目标。

星际争霸是目前AI 领域最火的问题之一，比如DeepMind 一直投入很大的精力在做，中国有很多初创公司也在做这方面的事情，我们很高兴看到，启元世界在一两个月之前北京的智源大会上，展示了他们最新的研究成果并击败了几位华人顶尖高手。星际争霸是一个特别复杂的问题，包括环境的不确定性和动态变化、多方的竞争、序惯的决策，完全体现了上面所讲的分布式人工智能所研究问题的特点。分布式人工智能覆盖很多其他场景，如军事方面的、金融方面的，也包括中科大陈小平老师团队参与的机器人足球比赛。这些问题相对比较复杂，有很多研究挑战，尤其是我们的解决方案特别需要考虑多个player 之间的竞争。

分布式AI 最近几年涌现出来的算法框架大致可以分为两类，一类是把传统的规划算法、算法博弈论，以及运筹学优化算法结合，解决大规模的优化或规划的问题，或者是博弈竞争的问题；另外一类算法基于强化学习，特别是多智能体深度强化学习。

接下来我针对这两方面，讲一些成功的例子，以及我们在这上面做的一部分工作。首先我讲一点关于很强竞争的AI 问题，这里需要用博弈论来分析竞争交互。把博弈论的思路应用到有竞争的AI 上，过去这几年有很多成功的例子。比如德州扑克（简称“德扑”），这是阿尔法狗之后最成功的AI 系统，有很大反响。德扑完全没用任何深度学习，是基于算法求解大规模博弈算法的进展。比如，安全博弈论成功应用于很多领域的安全资源调度；还有现在谷歌、百度、Bing 他们的主要收入来自于这些关联词拍卖，而关键词拍卖的成功依赖背后的拍卖机制设计。

下面简单介绍一下德扑。CMU 的Libratus 系统是基于他们十几年来在求解特别大规模的博弈算法方面的积累，然后击败了最顶尖的人类德扑选手。其实也有很多团队长期在做这些事情，比如Alberta 大学和DeepMind 都在尝试深度学习来解决德扑问题，基于博弈的思路目前是最好的。像阿尔法狗一样，如果能找到那个最优解肯定是最好的，就不用深度学习。如果一些博弈，能够找到一个近似的均衡，肯定是最好的一个思路。

早期的德扑是针对两个人博弈的，尽管能战胜世界上最顶尖的选手，但是在商业上没有太大价值。求解多人德扑是当前学术界的一个open 问题。最近两年的初步进展把多人分成两个队，一个队只有一个人，另外一个队是N-1 个人。我们在这方面也做了一些工作，提出的算法效率远远好过之前提出的所有算法。

以前我们做了很多安全博弈论方面的事情，在本质上希望帮助安全部门做安全资源的高效分配。由于用户的特殊性，所以算法必须要完全给出最优的解，或者有近似界的近似解。传统的诸如遗传算法的启发式方法都不能用。这一系列漂亮的研究，不仅有很多理论成果，更重要的是在全世界很多地方得到了真实应用，并且有很大影响。

对于涉及到多个竞争参与方的AI 问题，用算法博弈论是一个思路，刚才也展示了，希望这个思路能有很多很好的结果。有另外一些问题，用算法博弈的思路没有办法找到一个好的解。这几年有一个通常的做法，用强化学习来做，我在这里尝试去解释，在什么样的场景下，强化学习会是一个更好的选择？

当这个问题不能很好的建模，比如这个环境完全是open 的，不知道怎么model 它，就不能对它很好地进行求解。应用算法博弈论的思路时，首先要对博弈问题进行建模，我们model 那些player的策略空间和效用函数等，当不能很好的model问题时，博弈求解的方法就不能工作；其次，当问题规模特别大时，传统的算法也不能把最优的求出来。如果问题很难近似或者没有一些特殊的结构可以利用时，算法博弈论的思路也很难成功。

强化学习及多智能体强化学习是一个特别热的话题，国内有很多团队做了很多很好的工作。当然，现在还有很多挑战，特别是多智能体强化学习还处在起步阶段。

接下来展示几个最近做的一些工作。

我们做了电子商务平台的反作弊，并应用到电商平台上；还有电商平台组合推荐问题。比如，我们做了一个涉及电商平台多模块推荐的问题，这些模块是完全不同的团队运营，不同的团队在决定应该推荐什么样的东西没办法进行实时通信，所以我们研究了怎样来实现这些模块之间的协调，实现推荐效果的最优化。

我们做了一些非常大规模的policy planning问题，比如政府要决定一个policy，这个policy会影响下面很多player 的行为选择，由于player数量很大并且交互复杂，因此需要用到腹部是强化学习来解决这种特别大规模的优化问题。同时大规模分布式系统优化面临通信方面的约束，需要决定什么时候通信？和谁通信？以及通信什么样的内容？我们在这些方面也做了一些初步尝试。

总之，现在有很多挑战的问题需要分布式AI技术来解决，比如未来军事方面的应用，可能需要设计无人机及地面机器人的编队能够在陌生的环境执行特别复杂的任务。异构的无人机编队要对环境进行感知、要进行协作，然后要和敌方进行对抗。很显然，这样的环境下，优化必须是分布式的，如果由某个机器人来控制整个编队，整个系统是不鲁棒的，同时通信的代价也特别高。

现在分布式AI 已经有了很多有影响力的应用，但是我们看到更多迫切需要解决的应用问题，以及研究方面的挑战，希望能有更多的人参与分布式人工智能方面的研究。

（本报告根据速记整理）