普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

强化学习在人工智能领域的「扬名立万」，始于2016年DeepMind开发的Alpha Go在围棋竞赛中战胜人类世界冠军李世石。

之后，强化学习被广泛应用于人工智能、机器人与自然科学等领域，并取得一系列突破性成果（如DeepMind的Alpha系列），引起了大批学者的研究兴趣与广泛关注。

事实上，强化学习的研究由来已久，远远早于2016年。自上世纪80年代以来，强化学习的核心问题，如探索效率、学习与规划的规模与难度权衡，便在计算机科学、人工智能、控制理论、运筹学与统计学等等领域得到了广泛研究。

然而，强化学习的基础理论问题是什么？该领域出色的通用算法应具备哪些要素？如何设计高度可扩展的强化学习算法？……在2019年以前，这一系列重要问题均未得到很好的定义，强化学习也未形成一门独立的研究学科。

在此契机下，2019年秋天，七位学者组织了西蒙斯强化学习理论大会，召集了来自世界各地对强化学习感兴趣的学者，共同探讨与梳理强化学习的研究问题。

与1956年的达特茅斯会议相似，该会议的参会者也是来自各个领域，有应用数学家、统计学家、理论计算机学家，还有通信学家、密码学家、神经学家等等，包括Michael Jordan、Martin Wainwright、Csaba Szepesvari、Ben Recht等等知名学者。

大会长达半年，横贯一学期，覆盖四个分论坛，七位发起人梳理问题，最终确立了强化学习领域的四大核心研究方向：在线强化学习、离线与基于模拟器的强化学习、深度强化学习与应用强化学习。此举打开了科研人员研究强化学习理论与通用算法的大门，此后，研究强化学习的论文在NeurIPS、ICML等国际顶会上井喷，越来越多学者参与其中，极大地推动了强化学习学科的快速发展。

西蒙斯大会无疑是强化学习方向的「达特茅斯」。但与达特茅斯会议不同的是，西蒙斯大会的七位发起人中，有一位华人学者。她就是现任普林斯顿大学终身教授的知名青年科学家王梦迪。

1、从控制论谈起

求学期间，王梦迪常被称为「天才少女」：

14岁上清华，18岁到麻省理工学院（MIT）读博，师从美国国家工程院院士 Dimitri P.Bertsekas，23岁博士毕业，24岁进入普林斯顿任教、担任博士生导师，29岁获得终身教职，斩获多个重要学术奖项，可谓一部活脱脱的「名校披襟斩棘之史」！

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / 2018年，王梦迪入选「MIT TR35」中国区榜单

王梦迪在人工智能领域的探索，始于清华大学自动化系的本科就读经历。

清华大学自动化系组建于1970年，名师云集，引领着控制工程学科的科技创新，推动现代化和人工智能科技进程。控制论便是当代人工智能的起源之一。

从原理上看，控制论与强化学习/人工智能系统有着紧密联系。

如凯文·凯利在《失控》一书中所言，人工智能的雏形其实很简单：比方说，早期的抽水马桶就是一个「人工智能系统」：只要摁一下冲水键，马桶就能在失误很小的情况下自动完成冲水功能。但凡一个机制能通过反馈完成一个功能，就是人工智能。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / Kevin Kelly发表于1992年的经典科普著作《失控》

控制论的核心思路是对一个已知系统设计自我反馈机制以达到特定的目标或最大/最小化目标函数：

人们用一组微分方程或拉普拉斯函数对需要控制的系统（如机械系统、电气系统等）进行完整的描述。当系统的模型完全精确已知时，早期研究者无需借助计算机就可以通过数学的运算直接推导出该系统的最优控制策略，从而在物理上设计一个反馈机制，随着系统状态变化给出不同的反馈，实现自动控制。

同样地，强化学习也是基于系统的状态，不断对系统进行动态操控。区别在于，对于强化学习算法来说，待控制的系统是一个黑箱函数，不具备完整的数学描述，难以直接求解最优策略。所以，强化学习有潜力解决很多复杂但模糊的新问题，比如游戏的最佳策略，蛋白质的设计等等。

本科期间，王梦迪便是从控制论出发，首次接触了强化学习算法。

清华自动化系的本科毕业设计要做一个双足行走的机器人，在机器人的髋关节中间加一个小小的电机，目标是用最小的能量让机器人流畅地行走起来。假设机器腿是完美的刚体结构，腿部的摆动可以用拉格朗日方程精确描述。这时，经典的控制论就可以找到最优的控制策略。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / 双足机器人（图源网络）

然而现实的场景往往不符合假设，不存在精确的数学描述。课题中，要先不施加电机输入，观察机器人在斜坡如何利用重力和摆动被动走起来；走起来后，收集它的行走轨迹数据。然后，再基于数据，探索如何通过控制髋关节的电机，设计一个自适应的反馈系统，让机器人摆脱对重力的依赖、在平地上健步如飞。

面对这样一个动态过程，强化学习被派上用场：如果把双足机器人系统当成一个黑箱函数，基于价值函数和策略函数不断迭代、更新、实验、逼近，就能通过不断的试验进行在线学习，算出一个最适合双足行走机器人的状态-价值函数，找到最优控制策略。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / 王梦迪在 2017 年中国人工智能大会上作演讲，谈控制论与人工智能的关系

随着控制问题的复杂度不断提升，控制算法对系统建模的依赖也需逐渐放松，注重通过实验来收集数据、从数据中总结模型信息、在线学习来逼近最优系统操控策略的强化学习方法将在复杂系统中扮演越来越重要的角色。从这一点来看，控制论成就了人工智能的核心，而强化学习等新兴方法又反哺了控制问题的求索：

「比如，下棋本身无法用微分方程来描述，但我们可以一边下、一边收集下棋和对手的信息。当我们对要控制的系统的先验知识越来越少时，我们就越来越依赖于来自经验与数据的近似，并利用大规模深度神经网络进行高通量的计算、拟合和推理。」王梦迪介绍。

基于反馈、优化、乃至于深度学习，现代人工智能早已改变了人类的生活和认知，从自动驾驶到机器人流水线，从宏观电网调度到微观的蛋白质优化。控制论中的许多经典思想和方法，比如贝尔曼方程、模拟、反馈、系统辨识等方法，深刻影响了以深度强化学习为代表的现代人工智能研究上。

2、MIT读博：科研观的形成

在MIT读博期间（2007-2013），王梦迪师从 Dimitri P.Bertsekas教授，隶属于信息与决策系统实验室（Laboratory for Information and Decision Systems, LIDS），主攻控制算法与随机优化问题。

MIT 的 LIDS 实验室的研究传承来自于维纳与香农。维纳是控制论之父，而香农是信息论之父，控制论和信息论，分别代表了工业自动化时代和信息时代的开端。自成立以来，LIDS实验室的杰出科学家们便追求将控制论与信息论结合起来，用于复杂系统的智能化和信息化。

王梦迪的博士导师、美国国家工程院院士 Dimitri P.Bertsekas 是自动控制领域的宗师，于控制论、优化、运筹、神经网络等多个领域做出过奠基性贡献。

王梦迪对AI科技评论回忆，读博那会，导师Bertsekas非常宽松。王梦迪是他的关门弟子，他一直很鼓励她的发散性思考，从不否定她的各种脑洞大开的想法，这让王梦迪进一步释放了在清华时就开始积淀的对开创性的新问题、新领域的追求：

「我现在回想起来，他从来没有说过一句令我沮丧的话。如果我处在他的位置，可能对『我』会有挺多意见的。」

在Bertsekas的门下，王梦迪更多是学习到了一种高级的研究品味。这是一种与大咖导师同行、耳濡目染之下培养的研究思路。

Bertsekas在应用数学与系统控制方向均有极高的研究造诣，著有《概率导论》、《非线性规划》、《随机优化控制》与《强化学习与最优控制》等十多本著作与教材，是名副其实的大咖。在他的反复锤炼下，王梦迪慢慢明白一项好的研究工作应当具备怎样的标准，「他是一点一点地把我拎到了那个高度。」

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / Dimitri P. Bertsekas

Bertsekas是2019年完成《强化学习与最优控制》一书，彼时，王梦迪已离开导师的庇荫许久，在强化学习这一她自己独立拓展的领域打开一片新的天地，成为了人工智能、强化学习领域能够独当一面的学者。

对控制论与强化学习的关系思考，也使王梦迪相信：学习效率更高、泛用性更强的算法，是人工智能的未来。

3、机器学习与强化学习理论探索

王梦迪在2014年开始进入普林斯顿担任助理教授，2019年成为普林斯顿大学的终身教授，之后王梦迪加入了普林斯顿当时刚成立不久的统计与机器学习中心（Center for Statistics and Machine Learning，CSML），是最早加入CSML的教授之一。

CSML的主要研究内容是开发数据驱动的现代机器学习算法，与王梦迪的研究方向更契合。同样是举下棋的例子：就下棋而言，智能体的训练数据来自于游戏本身，每尝试新的玩法、就会收集到新的数据；在一个可以完美模拟的游戏环境中，智能体所收集的数据量甚至是无上限的。如何从模拟走向现实，即「sim2real」，是人工智能领域面临的难题之一。

自2015年DeepMind开发的Alpha Go 在与世界围棋冠军李世石的对峙中取胜，强化学习便成为许多人工智能研究员的神往之地，王梦迪也是其中之一。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

图 / 普林斯顿大学统计与机器学习中心（CSML）

在早期工作中，王梦迪是将数学优化方法与高维统计相结合，以解决大规模机器学习中的图问题。比如，当图问题离散组合时，如何利用问题的特殊结构，将问题进行对偶分解，从而获得一个出色的近似解。这一近似解借用了非凸优化的对偶性，与非凸问题的最优解相近。

她探索过复杂的多层期望嵌套的随机规划问题。通过巧妙的设计多层嵌套随机梯度法，能够在线的进行迭代，最终拿到的估计的统计效果与离线进行完整组合分析的效果一致。凭借这项研究，王梦迪在2016年获得三年颁发一次的国际数学规划学会青年学者奖（Young Researcher Prize in Continuous Optimization of the Mathematical Optimization Society）。

这些探索性的研究更加深了王梦迪对随机优化理论与机器学习结合的兴趣。接着，她又与斯坦福大学的叶荫宇（冯诺伊曼理论奖唯一华人获得者）等人合作，研究马尔可夫决策链（MDP）的理论复杂度与最优算法。

MDP是强化学习的基础模型，同时，MDP的算法复杂度也是运筹学领域的经典问题。他们要解决的问题是：当强化学习的样本来自于马尔可夫链时，要如何研究一个算法的最优收敛性与样本复杂度？如何定义MDP问题的最优算法与计算复杂度？从上世纪70年代起，便有许多学者开始研究这些问题，但一直悬而未决。

王梦迪与叶荫宇等人合作，结合经典的价值迭代算法，以及样本与方差缩减技巧，首次提出了能基于样本精确解决MDP的最优快速收敛算法，将马尔可夫决策链中的计算复杂度与样本复杂度做到了最优。他们的一系列工作（如“Near-Optimal Time and Sample Complexities for Solving Markov Decision Processes with a Generative Model”）于2019年发表在了计算机和机器学习顶会NeurIPS、SODA等上。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

论文地址：https://arxiv.org/pdf/1806.01492.pdf

凭借在马尔可夫决策链复杂度和在线强化学习上的一系列工作，王梦迪在2018年入选了「麻省理工科技评论35岁以下创新35人（MIT TR35）」的中国区榜单。

后来，她又在强化学习领域做了许多通用算法研究的工作，比如，在特征空间中进行在线自学习；再比如，探索强化学习的未知模：当未知价值函数属于一个无限维的抽象函数空间时，要如何在这个空间里不断迭代估计，并用该空间的复杂度来描述强化学习算法的效率。这些早期工作，也成为理论强化学习领域的奠基性工作。

2020年，DeepMind发布新一代强化学习系统Muzero。以往的强化学习算法如AlphaGo和AlphaZero往往只适用于单一类别的游戏。Muzero仅使用像素和游戏分数作为输入，同时在Atari、围棋、象棋等多个单人视频游戏和双人零和游戏上超越人类水平，达到AI算法最强战绩。

那时王梦迪正在DeepMind休学术假。她与团队成员联合 DeepMind 的科学家从理论上证明并进一步推广了Muzero的泛用性，移除了“价值函数导向回归”（value target regression）的特殊算法技巧，使得强化学习算法可以在任何一个黑箱环境中，对未知环境的变化进行判断、数据收集、并且构造后验概率模型，在一个抽象的大的函数空间里不断搜索、缩小模型范围，对未知环境及其最优策略快速逼近。

该算法同时结合了 model-based（基于环境模型的）和 model-free（不基于环境模型而是基于价值函数逼近）的两派强化学习算法各自的优点：对任意的黑箱环境进行探索、建模、并且利用深度价值网络快速训练、快速在线迭代策略，从而炼就了极强的泛化能力。这一系列新成果可以极大提高强化学习的效率，普适性，并降低对昂贵的算力和大规模数据资源的依赖。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

论文地址：https://arxiv.org/abs/2006.01107

4、拓展强化学习在复杂现实场景中的通用性

所有强化学习的算法都受限于马尔可夫决策过程中的奖励可加性 (reward additivity)，即「目标价值函数是每一步所得奖励的累加值期望」。奖励的可加性是贝尔曼方程（Bellman Equation）、控制论、乃至所有强化学习算法的数学基础。

尽管奖励的可加性能推导出数学上优美的贝尔曼方程，却极大地限制了强化学习的应用，因为在大量的非游戏的现实场景中，目标函数往往不是奖励的简单相加。在风险控制、策略模仿、团队协作等场景中，真正的目标函数往往是关于状态轨迹的复杂非线性函数，如风险函数、散度等等，甚至包含复杂的非线性安全约束条件。由于缺乏可加性，这些重要的实际问题无法用强化学习解决。

然而，当可加性不再成立，强化学习和控制的数学基础不复存在，我们熟悉的价值函数（Value Function）也不再存在。同时，策略优化算法的基础——强化学习之父Rich Sutton证明的策略梯度定理（Policy Gradient Theorem）也不复成立。

在智能决策领域，不满足奖励可加性的问题无解。

王梦迪团队挑战了这个全新的领域，拓展了强化学习的边界。当面对复杂目标函数、奖励不再可加时，王梦迪团队利用数学对偶原理，重新定义了策略梯度，得到了全新的更泛用的变分策略梯度定理（Variational Policy Gradient Theorem）。他们证明，对于更复杂的目标函数，其策略梯度依然可以计算，并且其等价于一个极大极小值问题的最优解。被重新定义的策略梯度，带来了全新的算法和应用。也就是说，强化学习可以进一步推广到金融风控、多智能体、模仿学习等现实场景中。

强化学习的边界，从奖励可加的马尔可夫决策过程，推广到更一般性的、更复杂的策略优化问题。这一系列工作收到了强化学习领域和数学优化领域的关注，连续两年在NeurIPS 2020与2021上被选为Spotlight Paper：

J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)

面向未来，王梦迪在强化学习中的另一项重要研究，便是数据降维（Dimensionality Reduction）和离线学习（Offline Learning）。

王梦迪的研究路线一向清晰：从理论研究出发，再将理论上的突破推向实际应用。基于离线数据的、在现实生活中落地的决策优化问题，便是王梦迪团队的一块「硬骨头」。

如前所述，在常见的游戏AI任务中，智能体能够通过不断模拟实验来收集数据，然后用这些数据来训练系统的策略网络。数据越多，算力充足，则算法越强，比如Alpha Go，AlphaStar，就能打败人类世界的冠军战队。

但在现实生活中，许多关键领域，比如医学与金融，并不具备像游戏般的完美模拟环境。因此，在模拟器上十分完美的强化学习算法，在现实生活中就未必能轻松地解决工程问题，比如医疗场景中的策略优化、复杂电力系统的最优控制等。这就是sim2real的难点。

王梦迪曾参加过一些医疗领域和生物技术领域的人工智能探索。在这些项目中，她的任务是将病人的病例数据当成「棋谱」，从中学习针对某一病例的诊断策略，并研究能否进一步优化诊断流程，降低病人的重症率。与游戏中的智能体可以「盲目」尝试、无限模拟不同，在医学环境中，病人没有办法做新的实验，而且数据可能极其有限。

在数据有限的情况下，研究者还能找到最优策略吗？亦或者是否可以退而求其次，将现有的策略进行最大程度的提高？如果要继续做实验，那么应该如何进行，才能以最小的代价收集到这些数据？这些问题，也就是「离线强化学习」所关心的问题。

显然，离线强化学习更看重「有效率」的尝试。王梦迪与团队通过数据降维的embedding方法，将数据从高维空间切换到低维空间，从而保留最有内容的信息，规避数据的过度拟合现象，为离线强化学习的研究开辟了新的道路。这些新探索在AI+医疗、新金融、AI「智造」等领域带来新的可能性。

5、面向未来的AI

应用数学和基础理论，往往是发现通用算法的起点。研究问题的通用性，逐渐拓宽研究的边界，加速了学科的交流与合作，也成就了王梦迪更大的研究世界观。

强化学习、统计优化是王梦迪组的两大研究方向，但她并没有将自己局限于机器学习的范畴。

青年科学家如王梦迪，成长于学科渐趋深度融合的大环境，也拥有了更大的研究世界观。在科研上，他们站在巨人的肩膀上，追求探索与创新的工作。跨学科作为火花碰撞的主要口子之一，自然对新一代的研究员有着致命的吸引力。

如果说达特茅斯会议的头脑风暴，是学科知识融合的起切口，那么，「AI for Science」（将人工智能应用于科学研究）似乎是人工智能首次作为一门成熟的独立学科，加入到学科间的交流中。科学领域的「大熔炉」是否会形成？答案仍未揭晓，但趋势却渐显。

「普林斯顿以科学为本，也愿意站在一个更高的理论角度来思考学科的发展，对AI for Science十分关注。」王梦迪谈道。

王梦迪对「AI for Science」的关注，始于2019年。那时，王梦迪在学术休假期间加盟DeepMind，兼职任高级研究科学家，也接触到了许多将人工智能技术用于科学研究的工作，比如能够预测蛋白质结构的 AlphaFold，不久前用神经网络求解混合整数规划（MIP）问题等。

王梦迪与团队追求创新研究，探索前人没有涉足过的问题。在她看来，机器学习领域更多基础问题已经解决，但在应用中还有大片空白。比如，在 AI 与生物学、AI与医疗、AI与材料等的结合研究中，学科间的融合是一大难点。

在与跨学科的科学家合作的过程中，王梦迪的一个感受是：两个领域的学者在定义问题的语言与方式上十分不同：

「机器学习的研究者习惯一上来就先问数据是什么、输入输出是什么，而自然科学的科学家可能对『输入』的概念很模糊。尤其是当数据少时，我们会需要对数据进行迁移学习，了解其他关联数据，分析数据之间的相似性，寻找内在逻辑和图谱等等。所以，要设计机器学习算法来辅助science，还要有大量沟通。」

不过，王梦迪并不沮丧。DeepMind是将人工智能应用在科学研究上的领头羊。来自 DeepMind 与其他机器学习领域的科学家的自信也感染了王梦迪:

「DeepMind的价值观就是要推动人类文明的进步。我感觉研究人工智能的学者都非常自信，觉得自己有能力解决世界上最难的问题。这种自信非常棒，会给予自己主观能动性，也会感染其他学者，帮助不同学科的人更快、更好地联合在一起，去解决原先以为难于登天的问题。」

近日，王梦迪与团队在这方面也取得了不错的成果：他们将单细胞的状态（来自于单细胞的逆转因子测序）当成一个系统来进行强化学习建模，通过高通量的单细胞测序数据来重建一个单细胞的状态变化轨迹，甚至找到它的重要隐变量，从而预测干细胞的分化和癌症细胞的病变。他们用深度学习的方法优化碱基序列和蛋白质氨基酸序列，辅助开发新的基因编辑、基因治疗工具。

问及为何「AI for Science」的首选领域是结构生物学，王梦迪解释：主要原因是结构领域的数据相对多；即使没有数据，还可以用分子动力学进行计算模拟。很多AI在药物发现上的突破，即是从这个角度出发，用深度学习进行加速，做泛化性处理。然而在数据量更稀少的问题上，还有大片空白等待探索。

谈起DeepMind，王梦迪非常爱戴，这个由世界顶级科学家创立的科研机构在用 AI 推动科学进步、社会进步的进程上敢为天下先，给全世界的学者带来了信心。但与此同时，DeepMind也无需被过度神化：「单就强化学习的应用技术而言，国内的领头羊，比如腾讯 AI Lab、阿里达摩院、滴滴等，并不比DeepMind差。」

追溯DeepMind发展飞快的更深一层原因，是 DeepMind 的科学家在母公司谷歌的支持下，能够自由地探索研究。相比之下，「国内应该没有一个 AI 机构能像 DeepMind 一样拿到那么多没有限制的资源。所以，从资源投入的角度来看，将任何一个以前的研究机构与 DeepMind 比都是不公平的。」

6、青年学者的乐观主义

王梦迪对人工智能的未来十分乐观。

她认为，机器学习仍在快速发展，当越来越多学科与知识融入其中，也必然产生越来越多的新问题。从这个角度来看，后继者在可以前人的基础上开辟新的道路，深度学习的瓶颈未必是人工智能研究的瓶颈。年轻的科学家们有机会拓展机器学习的边界、甚至科学的边界，在AI的大领域中找到自己的位置。

也许是年龄与所带领的博士生相仿，王梦迪似乎更能理解学生的想法，愿意支持学生做各种各样的选择。无论是进入学术界传承衣钵，亦或进入工业界推动技术落地；是做应用和产品，还是理论研究，她认为，这些方式都能推动人工智能发展，无以臧否。雷峰网

这一点，显然是受到了Bertsekas的影响。在她读博时，导师便从未否定过她的想法，而是支持她做任何事情。

她所指导的许多博士生与博士后，如今也已卓有成就，比如杨林，加入了UCLA担任助理教授，是NeurIPS 2020论文入选最多的华人学者（9篇）；郦旭东，如今已是复旦大学大数据学院的副教授；张君宇，现任新加坡国立大学副教授；郝博韬, 如今是DeepMind的强化学习科学家；Saeed Ghadimi，现任Waterloo大学商学院教授。

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观