作者:Gleb Chuvpilo是侧重投资AI和机器人初创公司的风险投资公司Thundermark Capital的执行合伙人。
引言
我们一年一度的《AI研究排名2019年版》终于出炉了(想了解我们去年发布的第一届排名,请参阅此文https://medium.com/@chuvpilo/whos-ahead-in-ai-research-insights-from-nips-most-prestigious-ai-conference-df2c361236f6)。这回我们分析了在两大最负盛名的AI研究会议:神经信息处理系统(NeurIPS或NIPS)和国际机器学习大会(ICML)上发表的研究成果。我们使用会议记录(NeurIPS 2019和ICML 2019),逐一研究了2200篇被接受的论文,详细列出了作者及所属组织,最后计算出每家组织的出版指数(参阅下面的“方法”部分)。可以从相当于完整论文(full paper)的角度对出版指数有一个最直观的认识:谷歌的出版指数167.3可以解读为2019年谷歌在这两大AI顶会上出版了167.3篇完整论文。
我们先介绍有关研究方法的详细信息,然后介绍2019年AI研究排名,并显示进一步的值得关注的描述性统计数据,最后探讨谁在AI方面处于领先。
方法
我们出版指数所用的方法受到《自然指数》(Nature Index)的启发:
为了收集一个国家、地区或机构对某论文的贡献,并确保它们的计数不超过一次,《自然指数》使用分数式计量(FC),该计量值考虑了每篇论文的作者份额。每篇论文的总FC为1,这个1在所有作者之间平分,假设每个作者的贡献同等。比如说一篇文章有10位作者,意味着每位作者获得的FC为0.1。如果是属于不止一家机构的作者,该作者的FC将在每个机构之间平均分配。对属于某机构的各个作者的FC求总和,即可计算出该机构的总FC。对于国家/地区而言,计算方法相似,不过一些机构设有海外实验室,这些实验室将被计入所在国/地区的总分,因此情况来得复杂一点。
唯一的区别是,我们的出版指数将海外实验室计入总部所在国/地区(而非所在国/地区)。这一点有争议,不过我们认为这种方法更客观地反映了知识产权的分配以及各自给总部而非给本地实验室带来的收益。
下面是计算出版指数的一个实例。如果某论文有五位作者,其中三位来自麻省理工学院(MIT)、一位来自牛津大学,另一位来自谷歌,每位作者将获得1分的五分之一,即0.2分。因而单单就该论文而言,MIT的出版指数将提高3 * 0.2 =0.6分,牛津大学的出版指数将提高0.2分,谷歌的出版指数将提高0.2分。由于MIT位于美国,因此拥有MIT将使美国的出版指数增加0.6分。同样,由于牛津大学位于英国,因此欧洲经济区+瑞士该类别将增加0.2分。最后,谷歌是一家总部位于美国的跨国公司,因此美国的出版指数再增加0.2分,因此总分增加0.8分。如果某作者隶属多家机构,我们将他/她的分数分配到每一家所属机构。比如以上面为例,如果最后一位作者标注属于两家机构:谷歌和斯坦福大学(而不仅仅属于谷歌),谷歌和斯坦福大学都会另外得到0.2 / 2=0.1分。
最后,我们认为将NeurIPS和ICML上出版的论文合并到同一个数据集很合理,原因是它们在顶尖AI研究人员当中都有相似的知名度、相似的机构参与度以及相似的论文接受率(NeurIPS的论文接受率为21.2%,ICML的论文接受率为22.6%)。
2019年AI研究排名
2019年AI研究方面处于领先的全球40大组织(工业和学术界)(附出版指数):
1.谷歌(美国)— 167.3
2.斯坦福大学(美国)— 82.3
3.麻省理工学院(美国)— 69.8
4.卡内基梅隆大学(美国)— 67.7
5.加州大学伯克利分校(美国)—54.0
6.微软(美国)—51.9
7.牛津大学(英国)— 37.7
8. Facebook(美国)— 33.1
9.普林斯顿大学(美国)— 31.5
10.康奈尔大学(美国)— 30.9
11.佐治亚理工大学(美国)— 30.1
12.得克萨斯大学奥斯汀分校(美国)— 29.9
13.伊利诺伊大学(美国)— 29.4
14.哥伦比亚大学(美国)— 29.2
15.清华大学(中国)— 28.4
16.加州大学洛杉矶分校(美国)— 27.2
17.苏黎世联邦理工学院(瑞士)—27.0
18. IBM(美国)— 25.8
19.华盛顿大学(美国)—24.0
20.法国国家信息与自动化研究所(法国)— 23.2
21.洛桑联邦理工学院(瑞士)—22.3
22.北京大学(中国)— 21.6
23.多伦多大学(加拿大)—21.4
24.哈佛大学(美国)—19.2
25.杜克大学(美国)—18.7
26.纽约大学(美国)— 17.7
27.剑桥大学(英国)— 15.1
28.韩国科学技术院(韩国)— 14.8
29.以色列理工学院(以色列)— 14.6
30.加州大学圣迭戈分校(美国)— 14.6
31.威斯康星大学麦迪逊分校(美国)— 14.4
32.亚马逊(美国)— 14.3
33.马萨诸塞大学阿默斯特分校(美国)— 13.8
34.伦敦大学学院(英国)— 13.7
35.蒙特利尔学习算法研究所(加拿大)— 13.5
36.南加州大学(美国)— 13.5
37.宾夕法尼亚大学(美国)— 13.3
38.首尔国立大学(韩国)-12.7
39.约翰•霍普金斯大学(美国)— 12.6
40.日本理化学研究所(日本)— 12.3
2019年AI研究方面处于领先的前20大地区(附出版指数):
1.美国— 1260.2
2.欧洲经济区* +瑞士—431.5
3.中国—184.5
4.加拿大—80.3
5.日本—49.4
6.韩国—46.8
7.以色列—43.3
8.澳大利亚—27.0
9.印度—17.1
10.新加坡—13.2
11.俄罗斯—10.6
12.台湾—5.3
13.沙特阿拉伯—5.0
14.阿拉伯联合酋长国—2.3
15.伊朗—2.2
16.南非—1.0
17.智利—1.0
18.马来西亚—0.7
19.土耳其—0.6
20.新西兰—0.5
*属于欧洲经济区(EEA)的国家包括:奥地利、比利时、保加利亚、克罗地亚、塞浦路斯共和国、捷克共和国、丹麦、爱沙尼亚、芬兰、法国、德国、希腊、匈牙利、爱尔兰、意大利、拉脱维亚、立陶宛、卢森堡、马耳他、荷兰、波兰、葡萄牙、罗马尼亚、斯洛伐克、斯洛文尼亚、西班牙、瑞典、英国、冰岛、列支敦士登和挪威。
2019年AI研究方面处于领先的20大国家(附出版指数):
1.美国— 1260.2
2.中国—184.5
3.英国—126.1
4.法国— 94.3
5.加拿大—80.3
6.德国— 64.5
7.瑞士— 59.3
8.日本—49.4
9.韩国—46.8
10.以色列-—3.3
11.澳大利亚—27.0
12.印度—17.1
13.荷兰—15.3
14.新加坡—13.2
15.丹麦—12.2
16.意大利—11.5
17.瑞典—11.3
18.俄罗斯—10.6
19.芬兰—9.6
20.奥地利—7.4
2019年AI研究方面处于领先的前20所美国大学(附出版指数):
1.斯坦福大学—82.3
2.麻省理工学院—69.8
3.卡内基梅隆大学—67.7
4.加州大学伯克利分校—54.0
5.普林斯顿大学—31.5
6.康奈尔大学—30.9
7.佐治亚理工学院—30.1
8.得克萨斯大学奥斯汀分校—29.9
9.伊利诺伊大学—29.4
10.哥伦比亚大学—29.2
11.加州大学洛杉矶分校—27.2
12.华盛顿大学—24
13.哈佛大学—19.2
14.杜克大学—18.7
15.纽约大学—17.7
16.加州大学圣迭戈分校—14.6
17.威斯康星大学麦迪逊分校—14.4
18.马萨诸塞大学阿默斯特分校—13.8
19.南加州大学—13.5
20.宾夕法尼亚大学—13.3
2019年AI研究方面处于领先的全球前20所大学(附出版指数):
1.斯坦福大学(美国)— 82.3
2.麻省理工学院(美国)— 69.8
3.卡内基梅隆大学(美国)— 67.7
4.加州大学伯克利分校(美国)—54.0
5.牛津大学(英国)— 37.7
6.普林斯顿大学(美国)— 31.5
7.康奈尔大学(美国)— 30.9
8.佐治亚理工学院(美国)— 30.1
9.得克萨斯大学奥斯汀分校(美国)— 29.9
10.伊利诺伊大学(美国)— 29.4
11.哥伦比亚大学(美国)— 29.2
12.清华大学(中国)—28.4
13.加州大学洛杉矶分校(美国)— 27.2
14.苏黎世联邦理工学院(瑞士)—27.0
15.华盛顿大学(美国)—24.0
16.法国国家信息与自动化研究所(法国)— 23.2
17.洛桑联邦理工学院(瑞士)—22.3
18.北京大学(中国)— 21.6
19.多伦多大学(加拿大)—21.4
20.哈佛大学(美国)—19.2
2019年AI研究方面处于领先的前20家公司(附出版指数):
1.谷歌(美国)— 167.3
2.微软(美国)— 51.9
3. Facebook(美国)— 33.1
4. IBM(美国)— 25.8
5.亚马逊(美国)— 14.3
6.腾讯(中国)— 8.8
7.阿里巴巴(中国)-7.5
8.博世(德国)— 7.2
9.优步(美国)— 7.1
10.英特尔(美国)— 6.9
11.丰田(日本)-6.0
12. Yandex(俄罗斯)— 5.8
13.百度(中国)— 5.5
14. 英伟达(美国)— 5.2
15.苹果(美国)—4.6
16. Salesforce(美国)— 4.2
17. PROWLER.io(英国)— 4.2
18. Criteo(法国)—3.9
19.华为(中国)— 3.7
20. NEC(日本)—3.5
进一步分析
学术界vs工业界-总出版指数中所占的份额:
- 学术界:77.8%
- 工业界:22.2%
NeurIPS 2019和ICML 2019上2200个论文标题中排名前150个的单词:
人均出版指数排在前30位的国家或地区(出版指数除以国家人口「百万人」)
1.瑞士—6.97
2.以色列—4.88
3.美国—3.85
4.新加坡—2.34
5.加拿大—2.17
6.丹麦—2.11
7.英国—1.90
8.芬兰—1.75
9.法国—1.41
10.瑞典—1.11
11.澳大利亚—1.08
12.韩国—0.91
13.荷兰—0.89
14.奥地利—0.84
15.德国—0.78
16.拉脱维亚—0.67
17.比利时—0.44
18.爱沙尼亚—0.44
19.日本—0.39
20.挪威—0.32
21.塞浦路斯—0.28
22.阿拉伯联合酋长国—0.26
23.台湾—0.22
24.爱尔兰—0.21
25.意大利—0.19
26.沙特阿拉伯—0.15
27.希腊— 0.14
28.中国—0.13
29.捷克共和国—0.11
30.新西兰—0.11
显示AI研究领域排名全球前40位的组织的树状图(面积与出版指数成比例):
排名前40位的这些组织共占总出版指数的55%,在总共2200篇论文中占到1212.3篇。
衡量AI研究方面的竞争(赫芬达尔指数):
赫芬达尔指数(又叫赫芬达尔–赫希曼指数)是衡量参与者数量相对行业的指标,也是表明参与者当中竞争程度的指标。
算式:
赫芬达尔指数算式:si是市场份额(百分比用作整数,用75而不是0.75表示),N是参与者数量。
解释:
•H低于100表示?6?7?6?7行业竞争激烈。
•H低于1500表示行业不集中。
•H在1500至2500之间表示行业中度集中。
•H高于2500表示行业高度集中。
至于我们的数据集(使用每家组织在总出版指数中的份额):H = 146.47,表示行业不集中。换句话说,没有迹象表明2019年AI研究有垄断现象。
讨论:谁在领跑AI?
关于中美竞相称霸AI的战略性竞赛现状,今天正在上演一场激烈的辩论。我们倾向于站在更全面的角度来看待,不过开始分析之前,先回顾一下历史:
- 2016年,AI领域发生了两件大事:3月,谷歌的AlphaGo成为第一个击败9段围棋职业高手李世石的计算机程序。10月,奥巴马总统政府发布了有关AI未来方向和考虑因素的战略:《为AI的未来做准备》。
- 这两件大事在中国营造了“人造地球卫星时刻”,这有助于说服中国政府优先考虑并大幅增加对AI的投入。
- 作为回应,2017年7月,中国政府定于2030年之前实现雄心勃勃的AI目标:中国力争到2020年成为AI经济体的一线国家,到2025年实现重大的新突破,到2030年成为AI的全球领导者。该战略就是著名的《新一代AI发展计划》,该战略刺激了许多政策,并刺激政府部门、地方政府和私营公司往研发方面投入数十亿美元。
- CNAS之类的某些智库认为,中国的AI战略反映了奥巴马政府报告中的关键原则——?6?7?6?7现在采纳这些原则的是中国,而不是美国。
- 这种仿效策略并不陌生:用Peter Thiel的《从0到1》中的话来说“中国一直在直接仿效发达国家工作成功的所有东西:19世纪的铁路、20世纪的空调,甚至整座城市。他们可能会跳过几个步骤,比如不安装固定电话而直接采用无线,但他们依然在仿效。”
- 2017年恰好是我们开始跟踪分析AI研究现状的一年,于是我们确立了中国的基准,下表显示美国在总出版指数方面比中国领先11倍:
2017年AI十大领先国家:美国比中国领先11倍
- 2019年,美国领先7倍(美国是1260.2,中国是184.5),因此差距显然在缩小。此外,艾伦AI研究所的分析(https://medium.com/ai2-blog/china-to-overtake-us-in-ai-research-8b6b1fe30595)发现,中国在引用率最高的10%论文中的作者份额稳步上升:2018年,中国的份额为26.5%,紧随美国的29%。
有人可能会说,在未来十年,美国在AI方面的竞争力面临不利。然而我们认为,结果将取决于现代AI的三大要素(算法、硬件和训练数据)取得的进展之间的相互影响,做好这三大要素才能称霸这个领域。
我们认为,未来几年美国在AI算法方面会有强大的领先地位,这离不开几十年来MIT、斯坦福大学、卡内基梅隆大学和加州大学伯克利分校等世界一流大学在计算机科学发展方面取得的成绩。此外,谷歌和Facebook等公司在AI会议上乐意公开发表内部研究成果,这提供了不断壮大的生态系统和某种交流机会,以便顶级AI研究人员在学术界和工业界之间从容转换角色(比如Yann LeCun或吴恩达)。
此外,美国是硅谷的大本营,自从叛逆的八人帮离开肖克利半导体实验室于1957年成立仙童半导体以来,硅谷就一直处于硬件创新的最前沿。深度学习算法极其耗费计算资源,挖掘比特币的耗电量比瑞士全国耗电量还大。我们认为,在今后十年,中国要想在硬件方面赶上美国极其困难。
然而,训练数据是美国占优势值得怀疑的方面,这是有意为之。实际上,这是更广泛的隐私与公共利益之争的一部分,美国倾向于选择隐私,而中国倾向于选择公共利益。如今在中国,AI扫描数亿只街道摄像头拍下的人脸、读取数十亿条微信消息,并分析数百万条健康记录,这一切都以数据是为了公共利益为由。这种随处可得的训练数据加上全国14亿人口,为中国创造了巨大的战略优势。
虽然很难得出结论,但我们仍认为前两个因素(算法和硬件)将压倒后一个因素(数据的可用性),未来几年美国会保持其在AI领域的领先地位。
数据集
请注意,AI大会不会发布采用标准形式的出版数据,因此我们的分析最终基本上靠手动(HTML解析、Python转换和许多手动的名称标准化)。如果你觉得有任何瑕疵,请发电子邮件过来,我们乐意修改。如果你想下载并研究数据集,发布在此处(http://people.csail.mit.edu/chuvpilo/publications.html)。