阿法狗算什么？地球最聪明的人说：“零”来了，摆脱人类自学成才

伦敦当地时间10月18日傍晚，阿法狗（AlphaGo）再次登上世界顶级科学杂志——《自然》。谷歌人工智能团队以《脱离人类认知，精通围棋游戏》为题，用整整5页的篇幅，隆重介绍了阿法狗的新版本AlphaGo Zero。

▲《自然》杂志官方网站公布AlphaGo Zero

一年多前，阿法狗便是2016年1月28日当期的封面文章，一篇题为《用人工神经网络和树状研究，精通围棋》的重磅论文，介绍了这个击败欧洲围棋冠军樊麾的人工智能程序。2个月之后，阿法狗在人机大战中击败世界顶级围棋棋手李世石，从此开始征服世界之旅。

阿法狗算什么？地球最聪明的人说：“零”来了，摆脱人类自学成才

▲2016年3月9日，韩国棋手李世石九段及女儿与“阿尔法围棋”创始人德米什·哈萨比斯（前左）合影图据新华社

从“人工神经网络研究”到“脱离人类认知”，新一代的阿法狗到底有什么不同？在今年5月乌镇一役完胜人类第一高手柯洁、宣布就此封盘退役的阿法狗为何在短短数月之后又卷土重来？红星新闻记者19日晚在第一时间连线到了阿法狗之父、谷歌Deepmind公司CEO德米什·哈萨比斯，他向我们独家揭秘了新一代阿法狗之谜。

阿法狗之父

曾是国际象棋神童

被评价为这个星球最聪明的人

德米什·哈萨比斯，41岁，英国伦敦生，父亲有着希腊和塞浦路斯血统，而母亲出身于新加坡和中国人的家庭。哈萨比斯幼年是一名国际象棋神童，13岁时，他就成为该年龄段世界排名第二的象棋大师。16岁考入剑桥大学，并以双重一级荣誉学位的成绩从剑桥毕业。

有“互联网之父”之称的英国计算机科学家蒂姆·伯纳斯·李曾评价：哈萨比斯是这个星球上最聪明的人之一。

2014年，哈萨比斯和合作伙伴将他们创办的人工智能公司DeepMind，以4亿英镑（6.3亿美元）的价格卖给了谷歌。哈萨比斯则继续担任CEO，潜心科研。

2016年，哈萨比斯联合开发的AI（人工智能）程序阿法狗问世，击败了顶尖的人类专业围棋选手，凸显了人工智能快速扩张的潜力。

2016年12月，哈萨比斯入选英国《自然》杂志年度十大科学人物。

2017年4月21日，美国《时代》周刊公布本年度“全球100位最具影响力人物”榜，AlphaGo之父哈萨比斯入选该排行榜。

起名“零”

并非旧版的升级

而是有颠覆性的全新版

对于新版本阿法狗的研发，其实在乌镇“人狗大战”前后一直没有停止过。

在3比0完胜中国天才围棋少年柯洁后，哈萨比斯曾在中国公开表示，“这次比赛聚集了围棋起源地最优秀的棋手，是阿法狗作为一个竞赛系统能够对弈的最高级别对手。因此，本次中国乌镇围棋峰会是阿法狗参加的最后对弈比赛。”

在所有人的解读中，阿法狗会就此退役。然而，对于阿法狗的升级工作从未停止，当时哈萨比斯就透露，今年DeepMind会继续发一篇论文，揭晓阿尔法狗自去年以来的升级。

于是，在当地时间本周三晚间，DeepMind再次传出爆炸性消息。只不过，这并不是对过去阿法狗的升级，而是完全创造了一个新的 AlphaGo：AlphaGo Zero ，“零”。

新版阿法狗来势汹汹，据Deepmind团队透露，新阿法狗“零”的水平已经超过之前所有版本的阿法狗。在对阵曾赢下李世石的那版阿法狗时，AlphaGo Zero取得了100:0的压倒性战绩。而且，它是从一张白纸开始，零基础学习，在短短3天内，成为顶级高手。

阿法狗算什么？地球最聪明的人说：“零”来了，摆脱人类自学成才

▲历代AlphaGo 所需的算力对比，图片来源：DeepMind

阿法狗算什么？地球最聪明的人说：“零”来了，摆脱人类自学成才

▲AlphaGo Zero 成长曲线说明：第0天，AlphaGo Zero此前没有储备任何关于围棋比赛的知识，只输入了围棋比赛的基本规则；第3天，AlphaGo Zero已超过了AlphaGo Lee的水平，AlphaGo Lee在2015年与世界冠军李世石的5局对弈中赢得其中4局；第21天，AlphaGo Zero已达到此前AlphaGo Master的水平，而此前这个版本的AlphaGo在网络上打败了全球范围内的60名高手，并且在2017年以3：0全胜世界冠军柯洁；第40天，AlphaGo Zero已超过此前所有AlphaGo的版本，无可争议地成为了目前全世界最强围棋玩家。而这一成果的取得全部源于其自学，没有任何人类介入，没有使用任何历史数据。图片来源：DeepMind

红星新闻记者将是否自食其言的问题抛给Deepmind团队，哈萨比斯对此解释道，“新版阿法狗‘零’的得名正是解释了新狗与老狗的区别所在——零（Zero），即完全不依靠人类数据和任何历史经验，完全依靠人工智能自身的独立思考和学习能力。”

这也解释了，乌镇人机大战以后，谷歌就宣布阿法狗退役，实际是在研究完全不同的新狗。

对于阿法狗名字的由来，团队表示颇有深意。在今年年初接受红星新闻记者专访时，阿法狗团队就曾解释过，alpha是希腊字母表的第一个字母。第一个，即开端，最初的含意。而后来横扫世界网络的Master（大师）的本名Magister，是德国作家赫尔曼·黑塞晚年作品《The Glass Bead Game（玻璃球游戏）》里的一个词。

而这一次的“零”，无疑是一个颠覆性的成果。

重大突破

没有人类知识输入

靠自我博弈而自学成才

“此前的阿法狗是通过大量吸收传统围棋对战路数、学习人类的围棋招式、数据实现的，而人类知识具有昂贵、不可靠、难以获取的特点。因此，对于AI长远发展而言，必须跳过这一步，在没有人类知识输入的前提下，创造出超人类（superhuman）的计算程式。”哈萨比斯解释道。

如果说此前版本的阿法狗需要被成千上万的人类棋手训练的话，新一代的阿法狗则跳跃了这一步、完全自学成才，“它自己就是自己的老师”。

阿法狗算什么？地球最聪明的人说：“零”来了，摆脱人类自学成才

▲图a展示了程序的自我对弈过程。程序在从S1到ST的棋局中进行自我对弈。在任意位置ST，程序会用最新的神经网络程序执行计算，然后，根据计算出的搜索概率at～ πt选择落子位置，根据游戏规则来决定最终位置ST，并计算出胜者z。图b展示了AlphaGo Zero中的神经网络训练过程。神经网络以棋盘位置St输入，将它和参数θ通过多层传递，输出向量Pt和张量值 Vt（Pt表示几步之后可能的局面，Vt 表示 St 位置上当前玩家的胜率）。为了将Pt和搜索概率πt的相似度最大化，并最小化Vt和游戏实际胜者z之间的误差，神经网络的参数θ会不断更新，更新后的参数会用到如图 a 所示的下一次自我对弈迭代中。

哈萨比斯向记者表示，“零”是目前最强版本的阿法狗，“阿法狗在短短两年时间就达到如此成就，我们也相当惊喜”。

它是从一张白纸开始，零基础学习，没有使用任何人类数据，而是直接与目前世界围棋最高水平的阿法狗自身学习，“每一次的自我博弈都取得了一定程度的提升”，就这样，在短短3天内，“零”成为顶级高手。

因此，这一次，新版阿法狗并没有和任何人类高手进行人机大战，而是直接通过“自我博弈”而“自学成才”。在对阵曾赢下李世石那版阿法狗时，“零”取得了100:0的压倒性战绩。

哈萨比斯评价道，人工智能极少地使用电脑的力量并完全抛弃了人类的数据经验，这是一个里程碑式的事件。

探索未知

若服务于医疗行业研究

阿法狗的算法将带去新的曙光

“这两年频繁地进行人机大战和线上对垒，最终目标是什么？”上次专访阿法狗团队时，红星新闻记者就曾向他们提出过这样的问题。

当时团队解释，“最终希望能将技术应用于解决现实世界的难题。在这些测试赛之外，我们更想人类的专业棋手和阿法狗一起，共同探索更多围棋的未知领域。”

而这次的阿法狗新版“零”干脆“抛弃”人类，通过自己输入，而摘得世界围棋最顶级的那个皇冠。

那么他们如此做的目的又是什么呢？这次哈萨比斯给出了更精确的答案和目标产业，“使用这种历史性的突破，来解决现实生活中目前无法解决的问题，比如在医疗行业的蛋白质折叠问题，还有就是新材料的发明。”

这一点与哈萨比斯自身的生活息息相关。生物学研究的一个重要课题就是蛋白质如何折叠成3D结构，因为3D结构将决定蛋白质在体内如何工作和反应，患阿尔海默氏（老年痴呆）症的病人或许就是因为蛋白质的折叠方式错误。而哈萨比斯的妻子是一名意大利的分子生物学家，多年一直专注于阿兹海默症的研究。