王飞跃
中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任、研究员
中国自动化学会副理事长兼秘书长
我们议题的名称是“神经元网络是否是复杂系统模型的特殊表达形式?”,在开始自己的报告之前,我必须首先明确地回答这个问题:特殊形式!否则就是今人对自己智力水平的“非分”评价,也是对未来人类智力的无理限定。下面我就自己30余年的科研经历,谈一下我所知道和体会的,利用神经元网络从复杂性到智能化尝试的一段特殊路径。
上世纪80年代末甚至90年代中,大家写论文谈神经元网络,一般总要加一个形容词:人工(Artificial),即人工神经元网络(ANN,Artificial Neural Networks)。今天ANN这个词已经很少用了,一些年青学者甚至不知道。回想起来,神经元网络的发展就是一个活生生的把实的做成虚的,虚的再做成实的案例:从人工神经元网络ANN,到神经网络NN,到深度学习DL,再到生产式对抗网络GAN;从不被人工智能研究主流认可,连边缘化的地位都不给,被迫以“计算智能”的名义“私奔”独立门户,到今天居然成了人工智能的“救命神草”主力主流,似乎实在的生物大脑“虚”了,人工的计算大脑“实”了,甚至引发“人脑不如机器”的人工智能威胁论。不错,这就是一段把虚的弄成实的,把直觉弄成经验再向认知前进的活生生历史和现代史。
为什么这么说呢?这要从一本书和一篇论文谈起。书就是差不多百年前罗素和怀德海的《数学原理》,三大本,整整写了十年多,单单为了证明1+1=2(不是哥德巴赫猜的1+1=2,是小学生的1+1=2!)就花了70多页纸,就是为了给数理推理的机器化打下一个坚实无比的基础。当然,Godel的不完备定理很快就证明这只能是梦想,属“想像智能”,不是“算法智能”可企求的。
这本书曾激起无数人的直觉与激情,连进精神病院甚至自杀的都有,尽管按罗素自己的看法,世界上差不多只有5个人认真读过他们的书。真与假不知道,但有两个人却因此书神奇地走到一起,真的就凭直觉“侃大山”般地“侃”出了今天的神经元网络,最开始的MP(Mc Culloch-Pitts)的模型,这就是1943年麦卡洛克和皮特斯所发表在《数学生物物理通讯》上的“关于神经活动里内在思想的逻辑运算(A Logical Calculus of the Ideas Immanent in Nervous Activity)”。
本来麦卡洛克是学心理学的,对哲学也感兴趣。他读了《数学原理》之后,凭“直觉”认定人的大脑就该照此“工作”,从美东到美中改行去了芝加哥,创立了差不多世界第一个大脑研究室,制作了世界上第一张大脑功能图。皮特斯就更传奇了,出身社会底层,小时候不但被小朋友欺负,还被父亲虐待。一天,被打逃进图书馆避难,结果一头“撞”到三卷本的《数学原理》。没想到,这位连小学都没有读完差不多已是流浪儿的皮特斯,无师自通不但“翻”完《数学原理》,还写下厚厚的读书心得寄给远在英国的罗素。罗素读了笔记,立即回信请皮特斯赴英做他的研究生!皮特斯不知所措,连邮费都付不起,哪有钱赴英读书,最大问题是小学还没毕业!万一罗素知道自己的真相又会怎样想?直到后来从报上得知罗素赴芝加哥讲学,才义无反顾地离家出走,去了芝加哥,至死再也没有回家过。在芝加哥,皮特斯认识了麦卡洛克,才能得到了极大的欣赏。麦卡洛克邀请经济拮据的皮特斯住到家中,晚上下班后聊天聊出了MP模型和1943年的论文。皮特斯的所作所为靠什么?我真不知道,这只能是天才的直觉。
现在大家公认神经元网络就是这样开始的,核心是计算。但你看原文的名字,是Logical Calculus,他们的目的就是逻辑的微积分,像布尔要给思维建模一样,希望为大脑里面的神经活动中无处不在的内在思想建模。这着实比我们今天讨论的给直觉建模还要玄呢!在论文里,他们给出单个神经元的模型,神经元组成不同网络的模型,如何进行各种逻辑运算的方式,证明了他们的神经元网络可以从事各种各样的逻辑运算,自然包括AND、OR等等之外的XOR。这是一篇有史以来引用最高的论文之一,当然,真正读过此文的人也很少,其实现在也没有必要再去读,除非研究历史或个人爱好。
一本书、一篇文之后,就来了马文·明斯基,人工智能真正的四位创始人之二,其博士论文是讨论神经元网络的随机联结的。明斯基1954年的论文题目是:“神经模拟加强系统理论及其在大脑模型问题中的应用(Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem)”。他与人工智能排第一的创始人约翰·麦卡西都是普林斯顿大学数学系的毕业生。当时,系里的老师认为明斯基的论文不够博文水平,也不算数学论文。最后,还是靠冯·诺依曼一句:今天不够不是,明天或许就够就是了;这才解围顺利拿到了学位。之后先赴哈佛做初级研究人员,帮助在MIT任教的麦卡西举办了1956年的人工智能第一次研讨会之后,由麦卡西安排转MIT任教共同研究人工智能。后来,二人分歧严重,麦氏“败”走西岸的斯坦福大学,也有了今日斯坦福的人工智能实验室。
再一再二,不能再三。我要介绍的第三篇文章是弗兰克·罗森伯雷特1957年的报告《感知机:感知与识别的自动机(The Perception:A Perceiving and Recognizing Automaton)》。他是明斯基纽约高中时的校友,提出用差不多就是一层的神经元网络感知世界包打天下。你们只能想象当年的情景,比今天的人工智能似乎还要热,美国的大报小报、纽约时报、华尔街、时代杂志、电视、广播,都是智能的时代要到了:我们有弗兰克的感知自动机了,机器将替我们识别图像、语言、决策,替我们想,有了感知机什么都够了,一下子就把弗兰克送上了天,成名人了。最后呢,让明斯基一本书打翻在地,成了神经元网络史上的一位大喜大悲的转折人物。
真是好景不长,明斯基和佩伯特在他们1969年的合著《感知机(Reception:An Introduction to Computational Geometry)》一棍子就把弗兰克的感知机打死:皇帝的新衣,连一个简单的XOR都不能做,最简单的模式都无法识别,能做什么?还“智能时代”呢!这本书的第一版是红色,西方文化中十分忌讳的颜色。其实明斯基给军方的项目总结报告里更是把感知机说的一钱不值,还隐含欺骗的意思。结果不但军方关于感知机的研究经费没了,就连学界关于神经网络的研究也差不多整整停摆了十年,这也是人工智能研究里的一个著名的冬天故事。
弗兰克怎么办?这位马文的高中同学在一次单独的划船出游中再没有回来,好多人说是事故,但也有人说是自杀。其实当时候弗兰克连个正经八百的教授都不是,他是Cornell大学的一个研究人员,在大学里全靠“软钱(Soft Money)”生存,没有“线(Line)”(有Line将由学校发工资,旱涝保收),没有经费不但支持不了自己的研究和团队,连自己的工资也没有了,所以没有经费就得走人。遗憾的是弗兰克上错了船,走错了地方,再也回不来了。
十多年之后,大家都知道这是一场悲剧,由于韦伯斯的BP算法和辛顿等人的PDP一书,NN网络“咸鱼翻身”又活了过来,还有了今天的深度学习。这时候,明斯基说他从来就没有把NN往死里打的意思,还把他们的书的新版改为象征和平的绿色,并献给死去的弗兰克,但界内仍有许多人对明斯基的行为耿耿于怀,不愿原谅其所为。
实际上,这也是NN能够独立于人工智能之外单独成为一个国际学术组织的主要原因:开始叫神经网络委员会,后改为神经网络学会,最后于2005年正式改名为今天的IEEE计算智能学会,特设弗兰克·罗森伯雷特奖纪念。很长时间,包括90年代甚至10年之前,你的NN文章送过来,一些主流的人工智能会议或杂志就一个字:拒(Reject),不信的话,大家可以查查当年的会议文集和杂志。九十年代中期NN最热的领域在哪里?在控制,特别是自适应控制,这就是为什么在计算智能学会中有一大批控制自动化出身的核心人员的原因。今天,NN成了机器学习和人工智能的主力,但大家不应忘了这段历史,因为忘记了这段历史,不是背叛,那是政治,这里的忘记意味着进入了盲区,忘记了实际应用的需求,可能再回人工智能的冬天,这是学术问题。
接下来的这本书就是尼尔森1965年写的《学习机器(Learning Machine)》,当年不叫机器学习,但完全是一回事。这是我读博士时帮助很大的一本书,至今家里还有一本尼尔森签名的存本。尼尔森是位把人工智能从“文学”转化为科学的大功臣,80年代我读了他所有的书和大部分论文,还写过书评。其实在《学习机器》中,尼尔森已经讨论了多层NN的一般逼近能力问题,只是太数学,当时一般的“工程师”教授不感兴趣,估计连明斯基和佩伯特也没读过,结果就出了《感知机》和弗兰克的悲剧。当年明斯基如果多读点书,就不会有神经元网络十余年的“死亡”。我也曾问过尼尔森:当年你为什么不站出来说明白?他也就笑一笑,说那是早期的东西,博士一完的工作,都忘记了这回事了。
韦伯斯1974年在其博士论文中提向的NN误差反向转播的BP算法为NN带来了第一次重大转机。BP其实很简单,就是把梯度算法分阶段算就是了。这也是一位天马行空的天才,跨了许多领域许多职位许多兴趣,我认识他二十余年,交往也有十余年,很有体会。他曾劝我一起研究量子力学Bell问题,我只能拒之。但BP的成名,要归功于1986年出版的PDP(Parallel Distributed Processing)这本书,也是三卷书(严格讲二卷),特别是辛顿等三人写的:“通过误差传播学习内在表示(Learning Internal Representations by Error Propagation)”一章。当时我们的实验室,几乎张口闭口都是PDP,特别是做机器人视觉的几位研究生,大家用BP算了许多例子,还与Hopfield网络还有Boltzmann机结合起来,做了许多探讨,但论文发表不了。记得后来一位来自IBM的带薪博士生的BP与Boltzmann结合的文章最后于九十年代初发表了,但我至今认为是错的。
其实PDP是一部编著,没有这本书,当时的神经网络文章就出不来,因为很难被杂志接收,投了命运往往就是被打回来。在编著里发表文章,当时一般美国的好大学里是不认账的,评职称升级都不算数。可当年的PDP让大家意识到,神经网络不是一层,可以多层,不但是弗兰克的感知机,这为NN 重新播下了火种,终于有了今天深度学习DL的熊熊大火。PDP不是计算机或人工智能领域的书,是心理学、认知科学、是个大杂烩、三不管的地方,就跟当年中国革命是通过井冈山这个三不管的地方成功一样,人工智能今天的突破,也是从无人之地兴起。许多人都忘了这段历史了,一心向往主流,忘了只有今日之细流,才有可能成为明日之主流。
与传统思想的冲突,我的记忆可能比一般人更深。我在博士论文中想用机器学习,就连最基本的加强学习,老板都反对,而且坚决反对。一不准神经网络NN,二不准模糊逻辑FL,因为一个是黑箱,不知道里面在算什么,因果关系上哪去了?一个评价更惨:“垃圾进,垃圾出(Garbage in,Garbage out)”,算什么逻辑?连修课都不行。就像小孩一样,越是“大人”不准的,越是要干,等1990年自己当上教授后,我就立即安排了自己的研究生进行相关的研究工作。
巧的是,此时我遇到二位“神人”,一位是我们工学院的副院长,时任NASA空间工程中心主任的Terry T. Triffet教授,他在斯坦福读书时,曾是对我影响很大的S. Timoshenko教授的学生,所以我们有很多的共同语言;另一位是量子力学创始人之一波恩的学生,著名的BBGKY方程组中的G,就是他的名字,Herbert(Bert)Green教授。二人“不务正业,偷偷摸摸”合作了三十多年,研究大脑,研究意识,特别是用量子力学的纠缠研究意识。其中格林是位围棋爱好者,写过差不多第一篇用人工智能下围棋的论文,他还是一位坚定的社会主义者,坚信人类政治家不可信,将来必须由人工智能机器替人决策。那时格林正在院里做Triffet的访问学者,希望我与他一起研究大脑、计算机、围棋和意识的纠缠模型,但我表示这些问题离我的专长智能控制还太远。后来,Triffet表示给我的外星无人车和无人工厂的项目经费可资助一到二位博士生从事相关研究,我才开始研究大脑的计算模型。这是我的第一次半独立的研究经费,20多万美元,但有四位PI。退休后,二人一起去了新西兰,自己盖房住,一边写科幻小说,一边研究纠缠与意识,还有他们的大脑NN模型,用了许多化学里的知识和术语。当年,他们认为自己的工作意义重大,可以获诺贝尔奖,忘了是物理、化学还是生物医学领域。
当时我只有三个博士生,第一位是位美国人,大学、硕士都是学物理的,还研究过弦论,因觉得物理博士方向宇宙天文毕业以后难找工作,所以转行在我名下读机器人的工学博士,他坚持表示不做脑的建模研究;第二位是位韩国人,现役军人,跟我读博士前在军舰上做了十年的舰长,读博士就是为了回去升将军,只想做智能决策,对大脑不感兴趣也没能力去研究;特别是当时我不到三十岁,这二位学生的年龄都比我大许多,只好劝我的第一位中国大陆来的学生跟我研究大脑。我给了他一本书名叫《Brain》的专著去读,这是Triffet和格林推荐的,说是当时最权威的大脑著作,让我大脑、小脑、前脑、皮下层、海马体看得头疼。学生一周后回来,说你看,人家最权威的脑专家在序言里就说了,目前对人脑大家几乎就是一无所知,凭想象凭摸索,你现在让我去建数学模型,怎么干?后来他拿了一个机器人的硕士,博士资格都考完了但不读就创业去了,结果非常成功,幸亏当时没有跟我研究大脑。前段时间回来见我,说现在意识到当年研究的超前,现在自己也开始投资人工智能产业了。
不到半年的时间,我就与Triffet和格林产生了严重的分歧,认为他们的路线行不通,希望从大脑宏观上的功能分区,不是微观上的生理分区,进行突破,试图为“黑箱”的NN建立类似于大脑功能分区的知识结构,使其“白”化,让NN可以解释,这就是1992年在Santa Fe一次会议宣读,同年收入一本编著的“为神经元网络建立知识结构(Building Knowledge Structures into Neural Networks)”一文,后来成了博士生Kim的论文题目,补全算法于1995年发表在英文“模糊与智能系统杂志”,是约稿。因为投稿没有杂志接收,当时的共识是NN三层网络就够了,这是数学上的证明,过了三层就是“罪”过,可我们的模型是九层,太荒唐了!我曾竭力争辩说我们的九层是模块化构建式的,而且每个模块不超过三层,还可以用解析式子代替,又可以封装化组装化,理论上不比三层复杂,不但可以自动加层减层,还可以去掉旧的或生出新的模块。
但要命的是,当时算起来太困难,用手头最先进的Sun Sparc机器一个例子要算整整一个星期。有时Kim吃不准机器在干什么,是算法问题算不出还是正在正常计算,常常夜里电话问我,可否停机查查。当时他一家四口都来陪读,周末也拖家带口呆在实验室,十分担心没有结果不能按时毕业。后来其他学生告诉我,Kim有时晚上喝得大醉躺在实验室外的草场上,不得不让校警送回家里,不知是否是因为太担心他的研究而借酒减压所致。不管怎样,最后就是他提前一年获得博士学位,但说再也不碰这个问题了。所以1995年以后,我再也没有安排学生做这方面的工作,只是自己有时还想想这个问题。去年AlphaGo之后,与几位学生和朋友在滑雪之余又讨论了一番,写了一篇英文论文,之间整整21年。我至今依然认为模块组装化仍是NN未来的方向。
这些工作,当年对我的研究生涯的起步帮助很大,而且在没有正式发表前就得到了应用。先是根据这些想法写了一份立项书给美国基金会NSF,没中,但项目主任电话我,说他有权限批小额项目,你的想法很有意思,但申请十几万不行,几万接不接受?我一听立即表示感谢,接受!写了一个3.6万美元的小项目申请,这就是我的第一个NSF项目:买了一个F/T(力/力矩)传感器,用最老的机器人PUMA机械手挖石头。接着由格林引见,认识了我们医学院主管科研的副院长,来自澳大利亚的Doug Stuart教授,他邀我打了一生中的第一场高尔夫。球场上,Doug对我说:你的那二位研究大脑的朋友“too pretentious”,你到我们实验室来看看。我当时在球场上真不知 pretentious这个词的意思,否则可能当场就会拒绝他的邀请。后来,参观了他的生物医学实验室(Arizona Lab),看了插了十六个电极探头的小老鼠,讲了我的工作。没想到他们认为我的工作很有意思,可用于飞蛾的嗅觉实验、电极信号识别、神经控制(Motor Control)等等。就这样,我加入了Arizona Lab,这才知道当时美国医学研究院 NIH的经费之零头也比 NSF的全部经费多,一下子解决了我许多经费问题,而且我的工作也得到了医学界的第一次引用。但最有“戏剧”性的应用是无人矿山项目: 一次我在一个会议上讲完我们用机器人挖石头的项目后,一位坐在后面的人一脸神秘找我和同事 Paul Lever教授,说请我们尽快安排去 Caterpillar总部,费用他付。我们在一个周末飞去了卡特彼勒总部,参观了研究部门之后,主管给了我们五张纸,上写“AutoDig Project”,问我们是否愿意以此作为项目合同,如可,一百八十多万美元,三年。后来又追加到 200 多万,原来的挖石算法奖了我个人3万美元。我不想在此形容当时的心情,反正自己辛辛苦苦写十五张纸的NSF项目书,最多才给十几万,而且当年命中率只有10%,万万没想到挖石头居然挖出“金子”来了!就是这些经历,让我从模糊逻辑和神经网络走向“当地简单、远程复杂”的代理控制想法,走向了今天虚实互动的平行智能之路。
回想起来,从上世纪50年代末弗兰克一层的感知机,到80年代中多层的兴起,但大家总觉得层数越少越好,等到了数学家证明三层就足够了的时候,大家就都觉得NN过了三层就是罪过,写更多层NN文章的作者自己都觉得不好意思。这是自我限制,想象力不够,胆量不足。没想到20年后辛顿来了一个千万层,一下子成了深度学习了!我从心底里佩服老先生的执着、胆量和想象力,也怪自己忘了在哥德尔的不完备定理之后,不该再让数学家“忽悠”了。其实,多层提供了足够的参数进行复杂计算,连“生命就是复杂化的物质”,相信智能化的算法也能用多层的NN实现。当然,能解释最好,这是我相信将来的出路是模块封装再组装化,也是我提倡平行智能、平行学习和平行区块链的原因。
对我而言,基于深度学习的AlphaGo开创了一个新的时代,就是新IT时代,IT不再是旧的信息技术,而是新的智能技术,我们从此进入了以智能产业为主的一个新的时代,这是从牛顿的“大定律、小数据”向默顿的“大数据、小定律”范式转移,是从计算机和信息时代的“Church-Turing Thesis”命题向我所称的“AlphaGo Thesis”的转变。在这个新时代中,直觉要变成经验,经验要变成数据,数据要变成智能,针对具体问题的具体智能,不再单单是因果关系,更多的是关联关系,从描述、分析、控制到数据、实验、引导。
今天的会议是关于复杂系统的认知和管理,不是复杂系统的描述和控制,因为无法进行传统的描述,更无法进行传统的控制,否则,越描述越不清楚,越控制就越乱,问题越多,最后无法收拾。我们必须换个思路,通过引导,英文Prescription,就是医生开处方的意思,对复杂系统像医生对病人那样的引导,对症下药,最后实现对其的有效管理。一定程度上,就是“忽悠”的数据化和科学化,其实就是智能化。
神经网络在此过程上发挥着十分重要的作用,除了模型是人脑虚化而来之外,目前基于NN的深度学习和AlphaGo的胜利,说明NN是从牛顿到默顿的一条有效途径。例如,AlphaGo把人类的80万盘棋的“小数据”,打成3000万,后来7000万,成为“大数据”,再提炼成价值与政策二张网络,成了“小规则”或“小知识”,战胜了人类围棋高手,甚至让有的棋手觉得是与“上帝”对弈*!将来“具体问题规则→小数据→大数据→小知识→具体问题的精准知识”会是大多数智能系统的套路,取替传统的建模、分析、控制的方式。
而且,NN用于感知和决策等问题有许多不同的方式,这从近年来涌现出来的,许多论文就可以看出。我特别要说的就是澳门大学陈俊龙教授的宽度学习和新加坡南洋理工黄广滨的极限学习,还有就是与我思路目前最一致,也是与平行学习最靠近的生成式对抗网络GAN。GAN通过把真与假平行而立,把一对矛盾体对立统一了,成为产生数据的有效手段,这与我自己把虚与实平行而立的想法不谋而合。但GAN是两端不全只是简单的平行,没有管理的平行学习。现在辛顿又提出要革“反向传播”BP的命,我觉得不必革命,自己都不清楚NN在算什么特征代表什么,革什么命?演化就行。我相信最后都是走向知识自动化之路,先从模块和组装化开始,再向模块自动产生,组装自动完成迈进。
总之,神经网络在深度学习上达到了一个高峰,可以说基本上是由直觉促成的。我个人认为目前最大的问题就是“开环”问题,DL处理的几乎都是开环问题。但如果要用到现实的实际问题,就必须考虑“闭环”问题,不但是识别对模式的决策,还要有对行动的决策,并直接反馈到下一个模式的产生,问题是连续进行的,一个接一个,就像在打仗一样。所以,必须要考虑动态规划DP之类的问题,大家都知道这里离散问题有“组合爆炸”,连续问题有“维数灾难”,都是NP-Hard在作怪。AlphaGo解决了围棋的计算复杂性问题,难道我们就不能解决DP的计算复杂性问题?这就是我对ADP方法的期望,目前我们算到四、五阶系统都吃力,将来平行动态规划PDP可否像AlphaGo一样比专家解DP还厉害?答案是一定的,问题是多少维数?多大尺度?
这个问题我也是从1984年就开始研究,从近似ADP到自适应ADP,从最小二乘法到迭代到NN代替,数论布点都用过,还是利用直觉,但比大脑建模时的直觉“解析”多了,我相信PDP(是平行动态规划,不是PDP那本书)是一个很有前途的方法,时间原因,不能多讲,将来有机会再交流这方面的工作。
平行学习是PDP的进一步扩展,是描述学习、预测学习和引导学习的平行组合,与宽度学习和其它方法都不一样。深度宽度还都是二维的方法,希望平行能走向三维或更高维的方法,实施时可降维,这就是“当地简单,过程复杂”的原理,云计算就是为此而建的。
最后,与大家分享两句名人之语。一个就是与中国渊源很深的,帮我们发现周口店北京猿人的法国学者德日进的话:生命就是复杂化的物质(见德日进《人的现象》)。一个是明斯基讲的:智能的诀窍就是没有诀窍,智能的力量源自我们自己巨大的多样性,而非任何一个完全的原理。(见明斯基《心智社会》)。
这都是非常相关的至理名言,据此,我理解神经网络既是从复杂性到智能化的特例也是通例,在复杂性上相通,在智能化上相异。关于仿真建模的相似原理,对我而言,NN不会是物理上的相似,也不是生物上或结构上的相似,只能是功能上的相似。至于置信性的考虑,我们也必须从历史上永恒的相关、因果的相关,到今天数据的相关。相应的置信问题也应当进行调整,必须创新出更合适的方法,就像引入虚数使X2+1=0有解一样,我们须用新的理解考虑置信问题,如特定任务置信度等。
* 注:在最近的AlphaGo Zero中,人类的80已变成零,机器的7000万也减为3000多万,学习时间缩成3小时。但凡是规则包含全部信息的问题中,理论上本来就不需要人的知识和经验,比如跳棋和国际象棋的机器胜人,都没有利用人的知识。
这就是最后的六个问题,请大家进一步讨论。
神经元网络到底是复杂智能系统模型的一种特殊表达方式还是通用的一般形式?
是否可以把神经网络看作一种特殊的复杂系统模型形式?
是否可以通过观测和积累一个复杂系统的大量输入/输出数据,再利用构建神经元网络来近似地模拟复杂系统?
用神经元网络黑箱模型来模拟复杂系统黑箱模型是不是仿真建模的另一种相似性原理?
这与传统的相似性原理建模有什么不同?
如何看待这种相似性模型的可置信性?
(根据2017年9月22日在广西桂林召开的“中国科协第121期新观点新学说学术沙龙”报告内容整理而成。)
下一篇:[转载]《自动化学报》44卷1期网刊已经发布, 敬请关注, 谢谢