长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

来源：图灵TOPIA 作者：HAL HODSON 编译：陈杰、王璇、杨鹏岳

DeepMind和谷歌的关系可能并不像看上去的那么美好。

2014年谷歌击败Facebook，斥资6亿美元收购了DeepMind。DeepMind致力于解决人工通用智能方面的挑战，它最为世人熟知的产品就是AlphaGo和AlphaZero。

因为DeepMind缺乏持续稳定的营收能力，并非所有谷歌员工都认为收购是明智之举；而对DeepMind的员工而言，谷歌这位金主也不是那么令人满意，他们之间的矛盾点在于“独立自主权“。

谷歌与DeepMind的控制与反控制的战争已经开始！

真相究竟如何？今日，图灵君带来《经济学人》万字长文：带你了解DeepMind的前世今生，深度洞察其与谷歌的人工智能控制权之争。

DeepMind的初心：AGI

2010年8月的一个下午，在旧金山湾的会议厅里，一名叫Demis Hassabis的34岁伦敦人大步走上舞台。他尽量控制着自己的情绪，微笑着说：“今天我将要谈论一种不同的构建方法......”他停顿了一下，好像要大声说出他的话题。然后他说：“那就是AGI”。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

AGI代表通用型人工智能，是一种假设的计算机程序，可以执行与人类相同或更好的智力任务。 AGI将能够完成离散任务，例如识别照片或翻译语言，这些只是我们手机和计算机中众多人工智能（AIs）形式的一种表现。但它也会加减法、下棋和说法语。它还能理解物理类论文、撰写小说、制定投资策略并与陌生人进行愉快的交谈。它将监测核反应、管理电网和交通流量，并毫不费力地取得一切成功。

AGI将使今天最先进的AI看起来像袖珍计算器。

目前只有人类的智力能够完成所有这些任务。但人类的智力受到大脑颅骨大小的限制，它的力量受到身体能够提供的微量能量的限制。但AGI将在计算机上运行，所以它不会受到这些限制。其智能仅受可用处理器数量的限制。AGI可能从监测核反应开始，但很快它就可以通过在瞬间消化更多的物理论文来发现新的能量来源，而这个过程，人类可能花费毕生精力也比不上。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

人机智能和计算机的速度和可扩展性，将解决掉目前看似不可解决的问题。哈萨比斯告诉英国报纸观察家，他希望AGI能够掌握“癌症、气候变化、能源、基因组学、宏观经济和金融系统”等学科。

哈萨比斯发言的会议被称为奇点峰会。根据未来学家的说法，“奇点”指的是AGI出现的最可能后果。因为AGI将以高速处理信息，所以它会很快变得非常聪明。自我改善的快速循环将导致机器智能的爆炸，使人类窒息于硅尘。由于这是完全建立在未经考验的假设上，因此无论是将奇点视为乌托邦还是地狱，都是近乎宗教信仰的问题。

从会谈的标题来看，会议的与会者倾向于将人工智能当成救世主：“如何建立人类思想”; “AI对抗衰老”; “取代我们的身体”; “修改生与死的界限”。相比之下，哈萨比斯的讲话“建立AGI的系统神经科学方法”似乎没有给人留下深刻的印象。

哈萨比斯在讲台和屏幕之间踱步，语速很快。他穿着一件栗色套头衫和一件白色的扣子衬衫，像个学生。他那瘦小的身材似乎反衬出他的智力强大。哈萨比斯解释说，到目前为止，科学家已从两个方面接近AGI。其中一个就是AI，研究人员试图描述和编程一个可以像人类一样思考的系统的所有规则。这种方法在20世纪80年代和90年代很流行，但没有产生预期结果。哈萨比斯认为大脑的结构太微妙，无法通过这种方式描述。

另一个就是以数字形式复制大脑的物理网络。这样做有一定道理，毕竟大脑是人类智慧所在。但哈萨比斯说，那些研究人员也被误导了。他们的任务与绘制宇宙中每颗恒星的任务类似。更离谱的是，这种方法专注于错误的大脑功能水平，就像试图通过撕开计算机并检查晶体管的相互作用来了解Microsoft Excel的工作原理一样。

相反，哈萨比斯提出了一个中间立场：AGI应该从大脑处理信息的广泛方法中获取灵感，而不是物理系统或它在特定情况下应用的特定规则。换句话说，它应该专注于理解大脑的软件，而不是硬件，像功能性磁共振成像（fMRI）这样的新技术，大脑在活动时能够在大脑内部进行对等活动，已经开始使这种理解变得可行。

他告诉观众，最新的研究表明，大脑通过在睡眠期间重播经验来学习，以便得出一般原则。 AI研究人员应该模仿这种系统。

在他的幻灯片的右下角出现了一个标志，一个圆形的蓝色漩涡，下面印着两个单词：DeepMind。这是该公司第一次公开亮相。这次演讲并不简单，哈萨比斯花了一年的时间试图收到奇点峰会的邀请。他真正想要的是与硅谷亿万富翁彼得·蒂尔（Peter Thiel）交谈一分钟，而蒂尔正是这次会议的赞助商。哈萨比斯想要蒂尔的投资。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

哈萨比斯从来没有说过为什么他特别想要蒂尔的支持。但蒂尔比哈萨比斯更相信AGI。在2009年奇点峰会的一次演讲中，蒂尔曾表示，他对未来最大的恐惧不是机器人起义（尽管在新西兰内陆地区有一个避难所，其实他比大多数人做好了准备）。相反，他担心奇点将花费太长时间，而世界需要新技术来抵御经济衰退。

DeepMind最终筹集了200万英镑; 蒂尔贡献了140万英镑。当Google以6亿美元的价格在2014年1月收购该公司时，蒂尔和其他早期投资者的投资收益率为5000％。

对于许多创始人来说，这是一个圆满的结局。他们可能会放慢速度，退后一步，花更多的时间与钱打交道。对于哈萨比斯来说，谷歌的收购只是他追求AGI的其中一步。 2013年，他花了很多时间谈判交易条款。DeepMind将独立于谷歌运营，将在不失去控股权的前提下获得谷歌提供的现金和算力。

哈萨比斯认为DeepMind将是一个混合体：它将拥有创业公司的驱动力，顶尖大学的大脑，以及世界上最有价值公司的雄厚资金。每一个因素都是为了加速AGI的到来，并解决人类的苦难。

哈萨比斯其人

哈萨比斯于1976年出生于伦敦北部，父亲是希腊塞浦路斯人，母亲是新加坡籍华人。他是三个兄弟姐妹中最大的一个。他的母亲在英国百货公司约翰·刘易斯工作，他的父亲经营着一家玩具店。他四岁时，在看完父亲和叔叔的比赛后，迷上了国际象棋，几周之内，他就击败了成年人。到了13岁时，他在同龄棋手中位居世界第二。八岁时，他自学了基础计算机代码。

哈萨比斯于1992年完成了他的A-levels课程，比计划提前了两年。他找到了Bullfrog Productions的电子游戏编程工作。哈萨比斯开发了主题公园，玩家可以在其中设计并运营虚拟游乐园，这取得了很大成功，销售了1500万份，之后还衍化出了新的模拟游戏类型，其目标不是击败对手，而是优化复杂系统的功能，如企业或城市。

除了开发游戏外，他还很擅长玩游戏。作为一个青少年，他会在棋盘游戏比赛中跑到两个楼层之间，同时参加国际象棋、拼字游戏、扑克和步步高比赛。 1995年，在剑桥大学学习计算机科学时，哈萨比斯经常出入学生围棋锦标赛。围棋是一种古老的战略棋盘游戏，比国际象棋复杂得多，这需要长期经验获得直觉。没有人知道哈萨比斯以前是否曾经参加过比赛。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

首先，哈萨比斯赢得了初学者的比赛。然后他击败了经验丰富的参赛者。参加锦标赛的剑桥围棋大师查尔斯·马修斯记得，一位专家级球员被一名19岁的新手打败后感到非常震惊。剑桥围棋大师马修斯随后将哈萨比斯收于麾下。

哈萨比斯总是通过一次次的比赛来展现其智慧和野心。慢慢地，游戏引发了他对智力的迷恋。当他观察自己在国际象棋中的成长时，他想知道计算机是否可以通过积累的经验编程来学习。游戏提供了一个现实世界无法比拟的学习环境。游戏是从现实世界中汲取的，它们可以在没有干扰的情况下实践并且有效地掌握。游戏加快了时间进度：玩家在几天内组建团队，并在几分钟内进行战斗。

1997年夏天，哈萨比斯前往日本。那年5月，IBM的深蓝计算机击败了世界象棋冠军加里卡斯帕罗夫。这是计算机第一次在国际象棋中击败了一位大师。这场比赛引起了全世界的关注，并引发了对计算机力量和潜在威胁的担忧。当哈萨比斯遇到日本棋盘游戏大师Masahiko Fujuwarea时，他谈到了一个将他在战略游戏和人工智能方面的兴趣结合起来的计划：有朝一日，他会建立一个计算机程序来击败最伟大的人类围棋玩家。

哈萨比斯有条不紊地去完成自己的事业。 “20岁时，哈萨比斯认为，在进入人工智能领域之前，他还需要做一些事情。”马修斯说。 “他有一个计划。”

1998年，他创办了一个名为Elixir的游戏工作室。哈萨比斯专注于开发一个雄心勃勃的游戏—《共和国革命》。它是一个错综复杂的政治模拟游戏。多年前，当他还在学校时，哈萨比斯告诉他的朋友穆斯塔法·苏莱曼，世界需要一个模拟复杂的动态并解决最棘手的社会问题的游戏。现在，他尝试在游戏中这样做了。

事实证明，由于代码开发的问题他并未达到预期目标。Elixir最终发布了这款游戏的精简版，反响平平。其他类似游戏也纷纷失败（其中一个是名为Evil Genius的模拟游戏）。2005年4月，哈萨比斯关闭了Elixir。马修斯认为，哈萨比斯创立公司只是为了获得管理经验。现在，在开始进军AGI之前，哈萨比斯只缺乏一个至关重要领域的知识，他需要了解人类的大脑。

2005年，哈萨比斯在伦敦大学学院（UCL）获得神经科学博士学位。他发表了一篇很有影响力的有关记忆和想象力的研究报告。这篇被引用超过1000次的论文显示，健忘症患者在想象新事物方面也存在困难，这表明记忆和创造心理图像之间存在联系。哈萨比斯试图去理解大脑的活动。他的大部分工作回归到了一个问题：人类大脑如何获得并保留概念和知识？

DeepMind的理想主义

哈萨比斯于2010年11月15日正式成立了DeepMind。该公司的使命宣言与现在一样：“Slove Intelligence”，然后用Intelligence来解决其他所有问题。正如哈萨比斯告诉Singularity Summit的与会者所说的那样，这意味着将我们对大脑如何完成任务的原理翻译给软件，让软件用相同的办法进行自学。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

哈萨比斯并没有假装科学已经完全理解了人类的思想。AGI的蓝图不能简单地从数百项神经科学研究中得出。但他很明白以他想要的方式开始研究AGI已经足够了。也有可能他过于自信了。我们对大脑的实际运作方式仍然知之甚少。2018年，一群澳大利亚研究人员质疑哈萨比斯博士的研究结果。统计数据很糟糕，虽然只是一篇论文，但它表明保障DeepMind工作的科学问题远未解决。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

Suleyman和Shane Legg是两个痴迷AGI的新西兰人，哈萨比斯也在伦敦大学学院认识了他们，他们成了联合创始人。该公司的声誉迅速增长。哈萨比斯很有天赋。 “他有点像磁铁，”DeepMind前运营经理Ben Faulkner说。公司许多新人来自欧洲，他们没有选择谷歌和Facebook这样的硅谷巨头。也许DeepMind最大的成就是尽早聘请并保留了最聪明和最优秀的人才。该公司在布鲁姆斯伯里罗素广场（Russell Square）的一个排屋的阁楼里开设了商店，这个房子位于伦敦大学学院（UCL）的马路对面。

该公司所关注的一种机器学习技术：强化学习，源于哈萨比斯对游戏和神经科学的双重迷恋。这样的程序是为了收集有关环境的信息而建立的，然后通过反复重放其经历来学习它，就像哈萨比斯在奇点峰会讲座中所描述的睡觉时人类大脑的活动一样。

强化学习领域刚开始一片空白。该程序展示了一个只知道规则的虚拟环境，与国际象棋或视频游戏的模拟一样，包含至少一个神经网络组件，它由多层计算结构组成，这些计算结构可以筛选信息以识别特定的特征或策略。

每个层都以不同的抽象级别检查环境。起初，这些网络的成功率很低，但重要的是，这些失败会纪录在编码里。当他们在尝试不同的策略时会变得越来越复杂，但如果最终成功就会获得奖励。如果程序移动棋子并因此输掉游戏，它之后则不会再犯这个错误。人工智能的大部分魔力在于它重复任务的速度。

DeepMind的成名之路

DeepMind的工作在2016年迎来了一个高潮，他们的一个团队建立了一个AI程序，该程序运用了强化学习和其他一些技术来玩围棋。2016年，这项名为AlphaGo的程序在首尔一场五局三胜制比赛中击败了世界冠军，引起了极大的轰动。这场胜利被2.8亿人收看到，比专家预测的要早十年。第二年，AlphaGo的改进版本击败了中国围棋冠军。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

像1997年的Deep Blue一样，AlphaGo改变了人们对于人类所取的成就的看法。人类冠军，地球上一些最聪明的人，不再站在智慧的顶峰。在将自己的野心告知了Fujuwarea近20年后，哈萨比斯实现了这一目标。哈萨比斯说，这场比赛让他差点流泪。传统上，学围棋的学生在一场比赛中击败他们的老师作为回报。而哈萨比斯通过击败这项比赛来感谢马修斯。

DeepBlue通过蛮力和高速的运算赢得了胜利，但AlphaGo的风格看起来更有艺术性和人性化。DeepMind的优雅、精致以及日益增长的计算力，似乎表明在寻求可以治疗疾病和管理城市方面比竞争对手更进一步。

一直以来，哈萨比斯认为，DeepMind将会让世界变得更好，但AGI没有确定性。如果它发展下去，我们不知道它是无私的还是恶毒的，或者它是否会受到人类的控制。即便它能被控制，那又有谁来掌控呢？

从一开始，哈萨比斯就一直在努力保护DeepMind的独立性。他一直坚持想把DeepMind留在伦敦。当谷歌在2014年收购该公司时，控制权问题变得更加紧迫。哈萨比斯不需要向Google出售DeepMind。他手头上有大量现金，并勾勒出了一个商业模式，公司将设计游戏来资助研究。

长文揭秘：谷歌与DeepMind的控制权之战，刚刚开始

谷歌的财力很有吸引力，然而，和许多创始人一样，哈萨比斯不愿交出他所培育的公司。作为交易的一部分，DeepMind制定了一项计划，阻止谷歌单方面控制公司的知识产权。

据知情人士透露，在收购前一年，双方签署了一份名为“道德与安全审查协议”的合同。没被报道过的这项协议是由伦敦的高级大律师制定的。

审核协议将DeepMind的核心AGI技术（无论是什么时候创建的）控制在一个称为道德委员会的理事会手中。道德委员会不仅仅是谷歌表面上的让步，它还为DeepMind提供了坚实的法律支持，以控制其最有价值和最危险的技术。小组成员的名字尚未公开，但另一个与DeepMind和Google关系密切的消息人士表示，三位DeepMind的创始人都在名单上。（DeepMind拒绝回答有关审核协议的一系列详细问题，但表示“道德监督和治理从一开始就是我们的首要任务。”）

哈萨比斯也可以通过其他方式来决定DeepMind的命运，其中一个是忠诚。过去和现在的员工都表示，哈萨比斯的研究议程是DeepMind最大的优势之一。他的项目给大家提供了令人着迷和重要的工作而且没有学术压力，以此吸引了数百名世界上最有才华的专家。

DeepMind在巴黎、阿尔伯塔和阿姆斯特丹设有分公司。许多员工感觉哈萨比斯及其使命比只追求利润的母公司更有吸引力。只要能保持员工的个人忠诚度，哈萨比斯作为唯一股东就有相当大的权力。对于谷歌来说，通过代理让DeepMind AI人才为其工作，总比这些人去Facebook或Apple工作要好。

DeepMind还有另一个需要持续不断进行的任务：扩大公众影响力。该公司擅长这一点。AlphaGo就是一场很棒的公关。自谷歌收购以来，该公司不停的做出引起全球关注的事情。一个软件可以在眼睛扫描中发现作为黄斑变性指标的图像。另一个程序学会了使用与AlphaGo相似的架构，从头开始学下棋，通过和自己下棋，仅用了9个小时就成为有史以来最伟大的国际象棋选手。

2018年12月，一项名为AlphaFold的计划比其他竞争对手更准确地预测了复合材料清单中蛋白质的三维结构，可能为治疗帕金森氏症和阿尔茨海默氏症等疾病铺平了道路。

DeepMind对其开发的算法感到特别自豪，该算法可以计算出最有效的方法来给谷歌的数据交换中心制冷，该中心包含大约250万台计算机服务器。DeepMind在2016年表示，他们将谷歌的能源费用减少了40％。但一些内部人士表示，这种吹嘘行为过于夸张。

早在DeepMind存在之前，Google一直在使用算法来优化其数据中心。 “他们只是想要一些公关，这样他们就可以在Alphabet心中增加一些价值，”一名谷歌员工表示。Google的母公司Alphabet给DeepMind支付相当可观的费用。

2017年，DeepMind从Alphabet公司拿走了5400万英镑。与DeepMind的日常开支相比，这个数字相形见绌。那一年，仅在员工身上，它就花费了2亿英镑。总得来说，2017年DeepMind损失了2.82亿英镑。

这对现金充裕的巨人来说微不足道，但这引起了Alphabet子公司首席财务官Ruth Porat的注意。互联网服务提供商的谷歌光纤（Google Fibre）在明确表示需要数十年时间才能获得投资回报后，就陷入了困境。人工智能研究人员私下也嘀咕，DeepMind是否会成为“Porated”。

DeepMind谨慎发布人工智能的进展是其管理战略的一部分，标志着其严控权力的声誉价值。在谷歌被指控侵犯用户隐私和传播假新闻时，这一点特别有价值。

DeepMind也很幸运能够获得最高级别的认可：Larry Page，Google的两位创始人之一，现在是Alphabet的首席执行官。Page和哈萨比斯唯一的交集可能是， Page的父亲Carl在20世纪60年代研究过神经网络。在他的职业生涯早期，Page表示他建立谷歌他只是为了建立一家人工智能公司。

DeepMind对发刊管理的严格控制并不符合公司普遍存在的学术精神。一些研究人员抱怨说，发表他们的作品很困难：他们必须先进行内部审批，然后才能将工作提交给会议和期刊。DeepMind认为，它需要谨慎行事，以避免吓跑公众，破坏AGI的前景。但过于紧张可能会开始恶化学术氛围并削弱员工的忠诚度。

在被Google收购五年之后，DeepMind的控制权问题被摆到了台面上。该公司的创始人和早期员工即将获利，而此时他们可以离开并拿到通过收购获得的经济补偿（哈萨比斯的股票价值约为1亿英镑）。但一位与该公司关系密切的消息人士表示，Alphabet已将创始人的收益推迟了两年。

哈萨比斯对此并不关注，所以不太可能跳槽。他金钱感兴趣，只是因为金钱能助他实现自己的人生，但有些同事却已经离开了。自2019年初以来，已有三名工程师离开，其中世界最著名的安全工程师之一Ben Laurie现已重返其前任雇主谷歌。DeepMind提供了这样一个令人振奋的使命并且给员工的薪酬非常丰厚，按理来说任何人都不该离开。

DeepMind的独立性将维持多久？

到目前为止，谷歌并没有过多干涉DeepMind。但最近的一次事件引发了人们对该公司的担忧：它还能维持多久的独立性？

DeepMind一直计划使用AI来改善医疗保健。 2016年2月，它成立了一个新部门：DeepMind Health。该部门由公司的联合创始人之一Mustafa Suleyman领导，而Suleyman的母亲是NHS护士。他希望创建一个名为Streams的程序，当患者的健康状况恶化时，该程序会通报给医生。 DeepMind将获得基于绩效的费用。由于这项工作需要访问有关患者的敏感信息，Suleyman建立了一个独立审查小组（IRP），其中包括优秀的英国医疗保健和技术人员。

DeepMind在护理上很智能。英国信息专员随后发现其中一家合作医院违反了关于处理患者数据的相关法律。尽管如此，到2017年底，Suleyman已经与四家大型NHS医院签署了协议。

2018年11月8日，谷歌宣布创建了自己的医疗保健部门Google Health；五天后，又公布了将DeepMind Health纳入其母公司的计划。而DeepMind在此之前似乎没给相关医疗机构提供任何预警。根据“信息自由”请求处理的原则，它仅提前三天向合作医院提供了关于此次变更的通知。

DeepMind拒绝透露有关合并讨论的开始时间，但它表示通知与公告之间的短暂时间差符合规定。

Suleyman在2016年写道：“在任何情况下，患者数据都不会与谷歌的账户，产品或服务相关联。”不过他的承诺似乎已被打破。（针对1843年的问题，DeepMind说:“在这个阶段，我们的合同依然没有被移至谷歌；而只有得到我们这边的合作伙伴的同意，他们只能这样做。Streams成为谷歌服务并不意味着患者数据......可被提供给其他Google产品或服务。”）

谷歌的吞并已激怒了DeepMind Health的员工。据知情人员说，一旦吞并完成，会有更多员工计划离开公司。 IRP的一名成员Mike Bracken已经离开了Suleyman。另外，据多位知情人士透露，Bracken于2017年12月已经辞职，因为担心该独立审核小组更多的只是为了装饰门面而非真正为了应对隐私方面的漏洞。

当Bracken问Suleyman是否会给小组成员赋予非执行董事的问责制和治理权时，Suleyman只是轻蔑一笑。（DeepMind的发言人表示，他们对这一事件“没有印象”。）IRP负责人Julian Huppert认为，该小组提出的“更激进的治理”比Bracken预期的要好，因为成员能够公开发言而不受保密义务的约束。

这一插曲表明DeepMind操作的外围运营易受谷歌影响。 DeepMind在一份声明中表示，“我们都同意，通过增加资源，同心协力将这些努力结合在一起是有意义的。”这就引出了一个问题，即Google是否会将相同的逻辑应用于DeepMind的AGI工作上。

长远来看，DeepMind已经取得了很大的进步。它已经构建了可以学习超人级别执行任务的软件。哈萨比斯经常引用Breakout（Atari游戏机的视频游戏）。一个Breakout玩家控制一个球拍，她可以在屏幕底部水平移动该球拍，用它将一个球反弹到悬停在它上面的挡块，在撞击时摧毁它们。当所有挡块都被删除时，玩家获胜。如果她用球拍错过了球，她就输了。在没有人工指导的情况下，DeepMind的程序不仅学会了玩游戏，而且还研究了如何将球加入到挡块后面的空间中，利用篮板来打破更多的挡块。哈萨比斯说，这证明了强化学习的力量和DeepMind计算机程序的超能力。

这是一个令人印象深刻的演示。但哈萨比斯漏掉了一些东西。如果虚拟球拍移动得再高一点，程序就将失败。 DeepMind的程序学习的技能如此有限，以至于它甚至无法对环境中的微小变化做出反应，至少在没有数千轮强化学习的情况下是这样的。但是这个程序本身已经内置了这样的训练。对智能诊断来说，没有两个身体器官是完全相同的。对智能机械来说，没有任何两个引擎可以以相同的方式进行调整。因此，把在虚拟空间中完善的程序移植到外部现实世界的过程充满了困难。

DeepMind很少谈到的第二个警告是，虚拟环境中的成功取决于奖励功能的存在：允许软件确认其进度的信号。程序知道从后墙上反弹能让它的得分上升。 DeepMind与AlphaGo合作的大部分工作在于构建一个能和这种复杂游戏相兼容的奖励功能。不幸的是，现实世界并不提供简单的奖励。进展很少能纯靠分数来衡量。在存在此类措施的情况下，政治上的挑战会使问题复杂化。协调环境卫生的奖励信号（大气中每百万的二氧化碳颗粒数），或是协调石油公司的奖励信号（股价），都需要同时满足许多动机相互冲突的人。奖励信号往往非常微弱。人类大脑很少会在完成任务的过程中收到关于任务成功的明确反馈。

DeepMind与强化学习

DeepMind在消耗了大量计算机算力后，已经找到了解决这个问题的方法。 AlphaGo需要数千年的人类游戏时间来学习任何东西，许多AI思想家怀疑，对于报酬较低的任务，这种解决方案是不可持续的。

DeepMind承认存在这样的含糊之处。它最近专注于星际争霸2，一款电脑策略类游戏。在游戏早期所做的决定会在之后产生影响，这更接近于现实世界中许多任务所特有的那种复杂且延迟的反馈。今年1月，DeepMind软件在一次演示中击败了一些全球顶尖的人类玩家，尽管演示受到了严格限制，但仍然令人印象深刻。它的程序也开始通过遵循人工任务主管的反馈来学习奖励功能，但将人工指令置于循环之中，可能会失去纯计算机处理所能提供的规模和速度。

DeepMind和谷歌的现任和前任研究人员由于严格的保密协议被要求匿名，他们也对DeepMind能否通过这种方法达到AGI表示怀疑。对于这些人来说，专注于在模拟环境中获得高性能使得奖励信号问题难以解决。然而，这种方法是DeepMind的核心，它有一个内部排行榜，在这个排行榜上，来自相互竞争的程序员团队的程序在争夺虚拟领域的控制权。

哈萨比斯一直将生活视为一种游戏。他职业生涯的很大一部分时间都致力于制作这些游戏，而大部分休闲时间则花在玩游戏上。DeepMind是他选择用来开发AGI的工具，就像他的软件一样，哈萨比斯只能从自己的经验中学习。

对AGI的追求可能最终会迷失方向，因为它已经发明了一些有用的技术，并超越了世界上最伟大的棋盘游戏玩家。这些确实都是重大的成就，但并非他所渴望的。他仍然可以将AGI引入现实应用，就在谷歌眼皮子底下却不在其掌控内。如果他这样做，哈萨比斯将赢得的是最艰难的比赛。

来源：图灵TOPIA 作者：HAL HODSON 编译：陈杰、王璇、杨鹏岳