DeepMind和谷歌的AI斗法
自被谷歌收购以来,DeepMind公司已多次创造出举世瞩目的奇迹,其研发的人工时能“AlphaGo”击败了多个人类围棋大师。(图片来源:DeepMind官网)
【欧洲时报申忻编译】2010年,伦敦人丹米斯·哈萨比斯创立了一家名叫DeepMind的公司,打造出世界上最强大的人工智能。然后,谷歌收购了这家公司。但从2018年起,逐渐有“谷歌正在失去DeepMind”的声音出现。事实究竟如何?
突破人类智力极限 AGI会是救世主吗?
2010年8月的一个下午,在旧金山湾区(San Francisco Bay)边上的一个会议厅里,34岁的伦敦人丹米斯·哈萨比斯(Demis Hassabis)走上讲台。他用一种刻意控制自己神经的步态走向领奖台,撅起嘴唇,露出一个简短的微笑,然后开始讲话:“那么,今天我要谈谈不同方法来打造……”他停顿了一下,似乎刚刚意识到自己在大声说出自己的宏伟抱负,然后他说:“AGI”。
AGI代表通用人工智能(artificial general intelligence),这是一种假设的计算机程序,可以像人类一样或更好地执行智能任务。AGI将能够完成分散的任务,比如识别照片或翻译语言,这些都是我们手机和电脑中众多人工智能(AI)专注于做的事情。但同时,它也会加法、减法、下棋和说法语。它还能理解物理论文,撰写小说,设计投资策略,还能和陌生人愉快地交谈。它将用于监测核反应,管理电网和调节交通流量,并毫不费力地在其他方面也取得成功。AGI将使当今最先进的人工智能看起来像袖珍计算器一样。
目前,这个智能技术所探索的全部任务都是人类所具备的。但是人类的智力受到大脑头骨大小的限制,其能量受到人体所能提供的微小能量的限制。因为AGI将在计算机上运行,所以它不会受到这些限制。它的智力只会受到可用处理器数量的限制。也许,AGI可以从监测核反应开始。但是很快,AGI就会发现新的能源,因为它在一秒钟内理解的物理论文比一千个人类一生中理解的还要多。人类的智商,再加上计算机的速度和可伸缩性,未来,AGI将使目前看来无法解决的问题迎刃而解。哈萨比斯告诉英国《观察家报》,他期望AGI能掌握“癌症、气候变化、能源、基因组学、宏观经济学和金融体系”等学科。
哈萨比斯所发言的会议被称为奇点峰会。根据未来学家的说法,“奇点”指的是AGI出现最可能引发的结果。因为AGI可高速处理信息,所以它将变得非常智能。快速的自我提升周期将导致机器智能的爆炸式增长,让人类窒息于硅尘之中。由于这个未来完全是建立在未经检验的假设的框架之上,因此,人们对于“奇点”是乌托邦还是地狱的判断,就成为了一个宗教信仰的问题。
从讲座的题目来看,与会人员都倾向于救世主的想法:“思想与如何打造思想”;“人工智能对抗老化”;“替换我们的身体”;“改变生与死的界限”。相比之下,哈萨比斯的演讲显得平淡无奇:“构建AGI的系统神经科学方法”。
哈萨比斯在讲台和屏幕之间踱步,语速很快。他穿了一件栗色的帽衫和一件像小学生一样领肩有纽扣的白衬衫。他瘦小的身材似乎更加凸显了他的智慧。哈萨比斯解释说,到目前为止,科学家们以两种途径走近AGI。一种方法是一个被称为符号人工智能(symbolic AI),研究人员试图描述和编写一个能够像人类一样思考的系统所需的所有规则。这种方法在20世纪80年代和90年代很流行,但没有产生预期的效果。哈萨比斯认为,大脑的心智结构过于微妙,无法用这种方式来形容。
另一种方法是研究人员试图以数字形式复制大脑的物理网络。这有一定的道理。毕竟,大脑是人类智力的中心。但是,哈萨比斯说,那些研究人员还是被误导了。他们的任务与绘制宇宙中每一颗恒星的规模相同。更根本的是,这种方法关注的是错误的大脑功能水平。这就像试图通过拆开一台电脑,研究晶体管之间的相互作用来理解微软Excel的工作原理一样。
不过,哈萨比斯提出了一个中间立场:AGI应该从大脑处理信息的广泛方法中获得灵感,而不是从物理系统或它在特定情况下应用的特定规则中获得灵感。换言之,AGI应该专注于理解大脑的软件,而不是硬件。像功能性磁共振成像这样的新技术,使人们在大脑活动时能够观察到大脑内部,已经开始让这种理解成为可能。他告诉观众,最新的研究表明,大脑通过在睡眠中回放一些经验来进行学习,从而得出普遍的规则。人工智能研究人员应该效仿这种系统。
在他幻灯片的右下角出现了一个标志,是一个蓝色的圆形漩涡。下面印着两个字:DeepMind。这是该公司首次在公开场合亮相。哈萨比斯花了一年时间试图获得奇点峰会的邀请。那次演讲不过是个托词。他真正需要的是与资助此次会议的硅谷亿万富翁皮特·泰尔(Peter Thiel)共处一分钟。哈萨比斯想要泰尔的投资。
哈萨比斯从未说过他为什么特别想要泰尔的资助。(哈萨比斯通过一位发言人拒绝了多次采访。《1843》采访了25位消息人士,包括现任和前任雇员以及投资者。他们中的大多数人都是匿名发言的,因为他们没有获得谈论该公司的授权。)但是,泰尔比哈萨比斯更相信AGI,也有更多的热情。在2009年奇点峰会上的一次演讲中,泰尔曾表示,他对未来最大的担忧不是机器人起义(尽管他在新西兰内陆有一个可以抵御末日浩劫的避难所,但他比大多数人都做好更充分的准备)。相反,他担心“奇点”出现的时间过长。世界需要新技术来防止经济衰退。
DeepMind最终筹集了200万英镑;泰尔捐资了140万英镑。当谷歌于2014年1月以6亿美元收购该公司时,泰尔和其他早期投资者的投资回报率已经高达5000%。
对于许多创业者来说,这将是一个皆大欢喜的结局。他们可以放慢脚步,花更多的时间想想怎么花这些钱。对哈萨比斯来说,收购谷歌只是他追逐AGI的又一步。2013年他花费大量时间谈判协议条款。DeepMind将在新东家下采取独立的实体运营。它将给其所有权公司谷歌带来收益,比如获得现金流和计算能力,但却不会失去自我控制权。
哈萨比斯认为DeepMind将是一个混合体:它将拥有初创企业的动力、顶尖大学的头脑,以及全球市值最高公司之一的雄厚财力。每一个要素都已到位,以加速AGI的到来,并解决人类苦难的根源。
DeepMind创始人哈萨比斯:因为擅长游戏而对智能产生痴迷
1976年,丹米斯·哈萨比斯出生于伦敦北部,父亲是希腊裔塞浦路斯人,母亲是华裔新加坡人。他是三个兄弟姐妹中最大的。他的母亲在英国百货公司John Lewis工作,父亲经营一家玩具店。他4岁时看到父亲和叔叔下棋后,也开始下起了国际象棋。学习了几周之后,他的国际象棋水平就能打败大人。13岁时,他已经是这个年龄世界上第二好的棋手了。8岁时,他在一台基本电脑上自学了编程。
1992年,哈萨比斯完成了他的 A-level等级考试,比原计划提前了两年。他找到了一份为Bullfrog制作公司编写电子游戏的工作。哈萨比斯编写了主题公园游戏(Theme Park),玩家在游戏中设计并运营一个虚拟游乐园。这款游戏获得了巨大的成功,销量达到1500万份,并成为一种新型模拟游戏的组成部分。在这种游戏中,玩家的目标不是打败对手,而是优化一个复杂系统的功能,比如企业或城市。
除了制作游戏,他还非常擅长玩游戏。十几岁的时候,他经常穿梭于不同楼层之间进行棋盘比赛,同时进行国际象棋、拼字游戏、扑克和西洋双陆棋的比赛。1995年,哈萨比斯在剑桥大学学习计算机科学时,参加了一场学生围棋锦标赛。围棋是一种古老的策略型棋盘游戏,比国际象棋复杂得多。如果想精通围棋,需要通过长期经验所获得的直觉。没人知道哈萨比斯以前是否打玩过围棋。
一开始,哈萨比斯赢得了初学者锦标赛。然后他击败了经验丰富的选手,尽管有些阻碍。比赛组织者、剑桥围棋大师查尔斯·马修斯(Charles Matthews)对于自己这位专业棋手被这名19岁的新手打败时的震惊。于是,马修斯便把哈萨比斯收入麾下培养。
哈萨比斯的智慧和雄心总是通过游戏来表现出来。游戏反过来又激发了他对智能的痴迷。当他观察到自己在国际象棋方面的发展时,他想知道计算机是否可以像他一样通过编程和积累经验来学习。游戏提供了一个现实世界无法比拟的学习环境。它们简单而从容。因为游戏与现实世界是分离的,所以它们可以在不受干扰的情况下进行练习并有效地掌握。在游戏里,时间要过得快得多:几天内,玩家就能组建一个团体,并在几分钟内完成索姆河战役。
1997年夏天,哈萨比斯去了日本。那年5月,IBM的深蓝计算机(Deep Blue)击败了国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)。这是计算机第一次在国际象棋比赛中击败特级大师。这场比赛引起了全世界的关注,并引发了人们对计算机日益增长的力量和潜在威胁的担忧。当哈萨比斯遇到日本棋类游戏大师富若里亚正彦(Masahiko Fujuwarea)时,他谈到了一个将他对战略游戏和人工智能的兴趣结合起来的计划:有一天,他将开发一个电脑程序,打败最伟大的人类围棋选手。
哈萨比斯有条不紊地开始了他的职业生涯。“哈萨比斯在20岁的时候就认为,在他能够达到自己想要的人工智能水平之前,某些东西必须到位。” 马修斯说,“他有一个计划。”
1998年,他创建了自己的游戏工作室Elixir。哈萨比斯专注开发一款野心勃勃的游戏——《共和国:革命》(Republic: The Revolution),这是一款复杂的政治模拟类游戏。几年前,当哈萨比斯还在上学的时候,他曾告诉他的朋友穆斯塔法·苏莱曼(Mustafa Suleyman),这个世界需要一个能模拟复杂的社会动态并解决棘手社会问题的模型。现在,他试着在游戏中这样做。
事实证明,他的抱负比预期的更难展开,因为很难把这些争论性问题转为代码。Elixir最终发布了一个精简版的游戏,获得了不愠不火的评论。其他游戏都失败了(其中一款是名为《邪恶天才》的邦德反派模拟器)。2005年4月,哈萨比斯关闭了Elixir。马修斯认为,哈萨比斯创建这家公司只是为了获得管理经验。现在,哈萨比斯在开始寻求AGI之前,他还不够了解一个至关重要的领域。他需要了解人类的大脑。
2005年,哈萨比斯开始在伦敦大学学院(UCL)攻读神经科学博士学位。他发表了一篇很有影响力的研究,关于记忆和想象力。一篇被引用超过1000次的论文显示,患有健忘症的人也很难进行想象,这表明记忆和创造心理图像之间存在联系。为了处理AGI的问题,哈萨比斯正在建立对大脑的理解。而他的大部分工作都回到了一个问题上:人类大脑是如何获取和保留概念和知识的?
哈萨比斯于2010年11月15日正式成立DeepMind。该公司的使命宣言在当时和现在一样:“解决智能(solve intelligence)”,然后用它来解决其他一切问题。正如哈萨比斯告诉奇点峰会的参会者,这意味着把我们对大脑如何完成任务的理解转化成软件的形式,计算机可以使用同样的方法进行自学。
哈萨比斯并不觉得科学已经完全理解了人类的思想。AGI的蓝图不能简单地从数百项神经科学研究中得出。但他显然相信,人们对AGI的了解已经足够多,可以按照他希望的方式开始对AGI进行研究。然而,他的自信有可能超出了现实。我们仍然对大脑的实际运作方式知之甚少。2018年,哈萨比斯的博士研究成果受到了澳大利亚一组研究人员的质疑。他们认为文章的统计数据很糟糕。虽然质疑是针对一篇论文,但也足够表明DeepMind还有很长的路要走。
吸引众多欧洲人才 无视谷歌和Facebook等巨头
苏莱曼和肖恩·莱格(Shane Legg)作为联合创始人加入了公司。莱格是一位痴迷于AGI的新西兰人,和哈萨比斯也是在伦敦大学学院认识的。这家公司的声誉迅速提高。哈萨比斯才华横溢。DeepMind前运营经理本·福克纳(Ben Faulkner)表示:“他有点像磁铁。”吸引着许多来自欧洲的新员工,他们无视了谷歌和Facebook等硅谷巨头可怕的注视。或许DeepMind最大的成就是早早地聘用并留住了最聪明、最优秀的人才。该公司在布鲁姆斯伯里罗素广场(Russell Square)一个连栋房屋的阁楼上开设了商店,与伦敦大学学院(UCL)隔路相望。
哈萨比斯专注于一种机器学习技术——强化学习(reinforcement learning),源于他对游戏和神经科学的双重热爱。这样一个程序的建立是为了收集关于它所处环境的信息,然后通过反复回放它的经历来从中学习,这很像哈萨比斯在他的奇点峰会演讲中对人类睡眠期间大脑活动的描述。
计算机在强化学习领域还是一片空白。该程序展示了一个虚拟环境,和国际象棋或视频游戏模拟一样,只有规则是已知的。该程序至少包含一个称为神经网络的组件。它由多层计算结构组成,这些计算结构通过筛选信息来识别特定的特征或策略。每一层都在不同的抽象层次上检查环境。起初,这些网络的成功率很低,但重要的是,它们会不断地积累经验。当他们尝试不同的策略时,他们变得越来越老练,如果他们成功时,他们会获得奖励。如果程序移动了棋子,结果输掉了比赛,它就不会再犯同样的错误。人工智能的魔力很大程度上在于它重复任务的速度。
DeepMind的工作在2016年达到了顶峰,当时一个团队开发了一个人工智能程序,该程序使用强化学习和其他技术来玩围棋。该程序名为AlphaGo,在2016年首尔的一场五局比赛中击败了世界冠军,引起了人们的震惊。有2.8亿人观看了这台机器的胜利,比专家预测的早了10年。第二年,改进版的AlphaGo打败了中国围棋冠军。
与1997年的深蓝一样,AlphaGo改变了人们对人类成就的看法。人类的世界冠军,一些地球上最聪明的头脑,已经不再站在智力的顶峰上了。哈萨比斯在将他的野心告知了富若里亚正彦近20年后,实现了这一目标。哈萨比斯说,这场比赛让他差点落泪。传统上,围棋学生通过在一场比赛中击败老师来回报老师。哈萨比斯打败了马修斯,以此感谢马修斯。
深蓝凭借其强大的力量和运算速度赢得了比赛,但AlphaGo的风格却显得很有艺术感,几乎是人性化的。它的优雅和复杂,其计算能力的超群,似乎表明,DeepMind在寻求一种能够治疗疾病和管理城市的程序方面,比竞争对手走得更远。
保护DeepMind独立性 谷歌提供法律支持
哈萨比斯一直说,DeepMind会让世界变得更美好。但AGI的前景并不确定。如果它一旦成型,我们不知道它是利他性的还是邪恶的,或者它是否会屈服于人类的控制。即便如此,谁应该执掌大权?
从一开始,哈萨比斯就试图保护DeepMind的独立性。他一直坚持要DeepMind位于伦敦。当谷歌于2014年收购该公司时,控制权的问题变得更加紧迫。哈萨比斯本不需要把DeepMind卖给谷歌。哈萨比斯手头有充足的现金,并且已经勾勒出一个商业模式,在这个模式下,公司将设计游戏来资助研究。谷歌的财务实力很有吸引力,但与许多创始人一样,哈萨比斯不愿交出自己一手缔造的公司。作为交易的一部分,DeepMind制定了一项协议,用来防止谷歌单方面控制该公司的知识产权。据一位知情人士透露,在收购前一年,双方签署了一份《道德与安全审查协议》(Ethics and Safety Review Agreement)。该协议是由伦敦的高级律师起草的,此前并没有报道。
这份审查协议将DeepMind核心AGI技术的控制权,无论它何时被创建,都交给一个名为道德委员会(Ethics Board)的管理小组。据同一消息人士称,道德委员会非但没有向谷歌做出表面让步,反而为DeepMind提供了坚实的法律支持,以助其控制其最有价值、也可能是最危险的技术。专家小组成员的名字尚未公布,但另一位与DeepMind和谷歌都关系密切的消息人士称,DeepMind的三位创始人都是董事会成员。(DeepMind拒绝回答关于审查协议的一系列细节问题,但表示,“从最初的日子开始,道德监督和治理就一直是我们关注的优先事项。”)。
高投入低产出 DeepMind可能被雪藏?
哈萨比斯还可以通过其他方式决定DeepMind的命运。一个是忠诚。过去和现在的员工都表示,哈萨比斯的研究议程是DeepMind最大的优势之一。他的工作计划提供了一些令人着迷的,且十分重要,并不受学术界压力的工作,吸引了数百名世界上最有才华的专家。DeepMind在巴黎和阿尔伯塔设有子公司。许多员工觉得哈萨比斯和他的使命比其渴望盈利的母公司更有亲和力。只要哈萨比斯保持他的个人忠诚,他便对该公司唯一的股东拥有绝对大的权力。对于谷歌来说,让DeepMind的人工智能人才通过代理人为其工作,比让这些人最终在Facebook或苹果工作要好得多。
不过,DeepMind还有另一个杠杆来源,尽管它需要不断增加有利的宣传。这家公司在这方面也的确很在行。AlphaGo是一场公关政变。自被谷歌收购以来,该公司已多次创造出举世瞩目的奇迹。一款软件甚至可以在眼睛扫描中发现黄斑变性的迹象。另一个程序使用与AlphaGo类似的架构,从零开始学习下棋,在与自己对弈9小时后,就成为有史以来最伟大的棋手。2018年12月,一个名为AlphaFold的项目被证明,它比竞争对手更准确地预测出蛋白质的三维结构,这可能为治疗帕金森症和阿尔茨海默症等疾病铺平道路。
让DeepMind特别自豪的是,它开发的算法,计算出了为谷歌的数据中心降温最有效的方法。据估计,谷歌的数据中心拥有250万台计算机服务器。DeepMind在2016年表示,他们已经将谷歌的能源账单削减了40%。但一些内部人士表示,这种吹嘘有些言过其实。早在DeepMind出现之前,谷歌就一直在使用算法优化其数据中心。谷歌的一名员工表示:“他们只是想做一些公关,这样他们就可以在Alphabet上增加一些附加值。”谷歌的母公司Alphabet为DeepMind提供这样的服务支付了不菲的费用。2017年,DeepMind向Alphabet公司开出了5400万英镑的账单。与DeepMind的管理费用相比,这个数字显得微不足道。仅在那一年,该公司就在员工身上花费了2亿英镑。总体而言,DeepMind在2017年亏损2.82亿英镑。
对于这个现金充裕的巨头来说,这只是杯水车薪。但Alphabet其他亏损子公司吸引了这位节俭的首席财务官露丝·波拉特(Ruth Porat)的注意。谷歌Fiber是一家致力于打造互联网服务提供商的公司,但在得知投资回报将需要数十年的时间之后,该公司暂停了投资。人工智能研究人员私下里想知道DeepMind是否会被“雪藏”。
发表出版被严格控制 员工忠诚度遭削减
DeepMind对人工智能进展的谨慎开发,构成了其向上管理战略的一部分,向当权者展示了其声誉价值。在谷歌被指控侵犯用户隐私和传播假新闻之际,这一点尤其重要。DeepMind还很幸运地拥有一位最高层的支持者:谷歌的两位创始人之一、现任Alphabet首席执行官的拉里·佩奇(Larry Page)。佩奇是哈萨比斯最亲密的老板。佩奇的父亲卡尔(Carl)在20世纪60年代研究了神经网络。在他职业生涯的早期,佩奇说他创建谷歌完全是为了创建一家人工智能公司。
DeepMind对出版发表管理所需的严格控制,与该公司弥漫的学术精神并不相符。一些研究人员抱怨说,发表他们的研究成果可能会很困难:他们必须向会议和期刊提交研究成果之前,通过层层内部审批。DeepMind认为,公司需要谨慎行事,以免AGI的前景吓坏公众。但过于严格的限制可能会破坏学术氛围,削弱员工的忠诚度。
在DeepMind被谷歌收购5年后,谁掌控的问题进入到一个关键时刻。该公司的创始人和早期员工开始获得收益,这时他们可以带着从收购中获得的经济补偿离开(哈萨比斯的股票可能价值约为1亿英镑)。但一位与Alphabet关系密切的消息人士表示,Alphabet将两位创始人的奖金发放时间推迟了两年。鉴于哈萨比斯孜孜不倦的专注,他不太可能跳槽。他对金钱的兴趣只在于它能帮助自己实现毕生的事业。但一些同事已经离开了。自2019年初以来,已有3名人工智能工程师离职。本·劳里(Ben Laurie),世界上最杰出的安全工程师之一,现在回到了他的前雇主谷歌工作。离职人员很少,DeepMind提供了如此令人振奋的工作和丰厚的薪酬,以至于很少有人离开。
到目前为止,谷歌还没有对DeepMind造成太大的干扰。但最近的一件事引发了人们对该公司能维持多久独立性的担忧。
人工智能改善医疗保健 患者数据能否被保密?
DeepMind一直计划使用人工智能来改善医疗保健。2016年2月,该公司成立了一个新的部门——DeepMind Health,由该公司联合创始人之一穆斯塔法·苏莱曼(Mustafa Suleyman)领导。苏莱曼的母亲是英国国家医疗服务体系(NHS)的一名护士。苏莱曼希望创建一个名为Streams的项目,当病人的健康状况恶化时,可以向医生发出警告。DeepMind将获得以绩效为基础的费用。由于这项工作需要获得有关病人的敏感信息,苏莱曼建立了一个独立的审查小组(IRP),由英国医疗保健和技术的杰出人士组成。DeepMind谨慎行事是明智的。英国信息专员随后发现,其中一家合作医院在处理病人数据时违反了法律。尽管如此,到2017年底,苏莱曼已经与4家大型NHShospitals公司签署了协议。
2018年11月8日,谷歌宣布成立了自己的健康机构谷歌Health。5天后,DeepMind宣布将把DeepMind Health纳入其母公司的计划。DeepMind似乎没有什么预警。根据信息自由请求获得的信息,它只提前3天通知了合作医院这一变化。DeepMind拒绝透露有关合并的讨论何时开始,但表示,公告与公开声明之间的短暂差距符合透明利益。苏莱曼在2016年写道:“在任何阶段,患者数据都不会与谷歌账户、产品或服务相关联。”不过,他的诺言似乎被打破了。(在回答《1843》的提问时,DeepMind表示,“在现阶段,我们没有任何合同转移到谷歌,只有在得到合作伙伴同意的情况下,它们才会转移到谷歌。”Streams成为谷歌服务并不意味着患者数据……可用于提供其他谷歌产品或服务。)
谷歌的合并激怒了DeepMind Health的员工。据接近健康团队的人士透露,更多的员工计划在合并完成后离开公司。IRP的一名成员迈克·布雷肯(Mike Bracken)已经从苏莱曼那里辞职。据多位知情人士透露,2017年12月,布雷肯辞职,原因是担心该委员会更多是在粉饰门面,而不是真正的监督。当布雷肯问苏莱曼,他是否会赋予小组成员非执行董事的问责和治理权力时,苏莱曼嗤之以鼻。(DeepMind的一位发言人表示,他们“不记得”这件事。)IRP的负责人茱莉亚·鲁伯特(Julian Huppert)认为,该小组比布雷肯预想的“治理得更激进”,因为成员们能够公开发言,不受保密义务的约束。
这段小插曲表明,DeepMind的外围业务很容易受到谷歌的攻击。DeepMind在一份声明中表示,“我们一致认为,在增加资源的情况下,将这些努力集中在一起是有意义的。”这就引出了一个问题:谷歌是否会将同样的逻辑应用于DeepMind对AGI的研究。
生活是一场游戏 DeepMind在游戏中进步
从长远来看,DeepMind似乎取得了巨大的进步。该公司已经开发出能够学习在超人水平上执行任务的软件。哈萨比斯经常提到雅达利游戏机的电子游戏Breakout。Breakout玩家控制着一根球棒,它可以在屏幕底部水平移动,用它来将球反弹到悬浮在球棒上方的方块上,在击打时摧毁它们。当所有方块被消灭时,玩家获胜。如果用球棒击球失误,就会输。在没有人类指导的情况下,DeepMind的程序不仅学会了玩这款游戏,还学会了如何将球打到方块后的空间,利用反弹的方式摧毁更多的方块。哈萨比斯说,这证明了强化学习的力量和DeepMind计算机程序的超乎寻常的能力。
这是一个令人印象深刻的演示。但哈萨比斯漏掉了一些东西。如果虚拟球拍移动得再高一点,程序就会失败。DeepMind的程序学习的技能是如此有限,以至于它甚至无法对环境的微小变化做出反应,以至于一个人无法从容应对——至少在没有数千轮强化学习的情况下是如此。但这个世界本身就有这种细微变化。对于诊断智力,没有两个身体器官是完全相同的。对于机械智能来说,没有任何两个引擎可以以相同的方式调整。因此,将在虚拟空间中完善的程序发布到外界充满了困难。
DeepMind很少谈及的第二个警告是,虚拟环境中的成功依赖于回报函数的存在:一个允许软件测量其进展的信号。程序知道从后墙上弹回来会使它的分数上升。DeepMind与AlphaGo合作的大部分工作在于构建一个能与如此复杂游戏兼容的回报函数。不幸的是,现实世界并不提供简单的奖励。进步很少用分数来衡量。在这些措施存在的地方,政治挑战使问题复杂化。协调气候健康(大气中每百万二氧化碳的含量)与石油公司(股价)间的奖励信号需要满足很多冲突的动机。奖励信号往往非常微弱。人类大脑很少会在完成任务的过程中收到关于任务成功完成的明确反馈。
DeepMind已经找到了一种方法来解决这个问题,它使用了大量的计算机能力。AlphaGo通过人类数千年的博弈来学习任何东西。许多人工智能思想家怀疑,对于报酬较低的任务,这种解决方案是不可持续的。DeepMind承认存在这样的模糊性。该公司最近专注于一款电脑战略游戏《星际争霸2》。在游戏早期所做的决定会在之后产生影响,这更接近于现实世界中许多任务所特有的那种复杂且延迟的反馈。今年1月,DeepMind软件在一次演示中击败了一些全球顶尖的人类玩家,尽管演示受到了严格限制,但仍然令人印象深刻。它的程序也已经开始通过跟随人类监工的反馈来学习奖励功能。但是,将人工指令置于循环之中,可能会失去纯计算机处理所提供的规模和速度的影响。
由于严格的保密协议,DeepMind和谷歌的现任和前任研究人员要求匿名。他们也对DeepMind能否通过这种方法与AGI达成协议表示怀疑。对于这些人来说,专注于在模拟环境中获得高性能使得奖励信号问题难以解决。然而,这种方法是DeepMind的核心。它有一个内部排行榜,在这个排行榜上,来自相互竞争的程序员团队的程序争夺虚拟领域的控制权。
哈萨比斯一直把生活视为一场游戏。他的大部分职业生涯都致力于制作这些游戏,他的大部分业余时间都花在玩这些游戏上。在DeepMind,它们是他选择用来开发AGI的工具。就像他的软件一样,哈萨比斯只能从自己的经验中学习。对AGI的追求可能最终会迷失方向,因为它已经发明了一些有用的医疗技术,并超越了世界上最伟大的棋盘游戏玩家。AGI取得了重要的成就,但却不是他渴望的。但他仍然可以在谷歌的鼻子底下,凌驾于谷歌的控制,引导AGI发展。如果他做到这一点,德米斯·哈萨比斯将赢得最艰难的一场比赛。
(《1843》授权《欧洲时报》专版;本文作者:Hal Hodson,译者:申忻)
(编辑:夏莹)
评论