X

年度指数报告发现人工智能正在“产业化”但需要更好的指标和测试

据外媒VentureBeat报道,中国在人工智能研究论文总数上已经超过了美国,获得资金的人工智能初创公司越来越少,美国国会比以往任何时候都更多地谈论人工智能。这是斯坦福大学上周发布的年度报告《2021年人工智能指数报告》中强调的三大趋势。该报告试图记录人工智能的进展,以及该技术对教育、创业公司和政府政策的影响。报告详细介绍了人工智能主要子领域的性能进展,如深度学习、图像识别和物体检测,以及蛋白质折叠等领域。

《人工智能指数报告》由斯坦福大学以人为中心的人工智能研究所和一个由11名成员组成的指导委员会编制,贡献者来自哈佛大学、经合组织、AI伙伴关系和SRI国际。该报告利用了一系列来源的数据集,比如arXiv的AI研究数据,Crunchbase的资金数据,以及对Black in AI和Queer in AI等团体的调查。经合组织一个研究算法影响评估的小组负责人、OpenAI的前政策总监Jack Clark表示,报告中还发现的一个主要趋势是人工智能的产业化。

“我认为对我来说,这个故事是人工智能正在产业化,而我们不太知道如何全面评估它的产业化,因为我们有点缺乏很多你所期望的数据。而我认为这是因为人工智能刚刚从 ‘不能用’到‘能很好地进行商业部署’的速度比你想象的要快。这意味着......每个人都在比赛,包括研究界,以跟上商业部署的步伐,”他说。

报告中的其他主要启示:

  • 根据LinkedIn提供的数据,巴西、印度、加拿大、新加坡和南非从2016年到2020年的AI招聘水平最高。

  • 2020年,全球总投资,如私人投资和并购,增长了40%。但连续第三年,AI创业公司的资金流向的创业公司越来越少。

  • 2019年,在北美,每3个拥有人工智能博士学位的毕业生中,约有2个进入了工业领域,高于2010年的44%。

  • 大多数人工智能博士毕业生来自美国以外的地方,每5个毕业生中就有4个毕业后留在美国。

  • 对50万个博客和6万条英文新闻进行的新闻分析发现,人工智能伦理故事是2020年最受欢迎的人工智能相关新闻之一,包括谷歌解雇Timnit Gebru以及欧盟委员会、联合国和梵蒂冈推出的伦理倡议等话题的报道。

  • 2020年,主要人工智能研究会议的出席率翻了一番,因为大多数团体选择举行虚拟聚会。

  • 根据2020年计算研究协会的调查,女性占AI博士毕业生的18%。

  • 中国在论文总数上超过了美国,但美国在AI研究会议上的引用量延续了20年的领先优势。

  • 根据GitHub Stars的总数,TensorFlow是最受欢迎的AI软件库,其次是Keras和PyTorch。

  • arXiv上的AI相关论文从2015年的大约5500篇增长到2020年的近35000篇。

  • Queer in AI 2020成员调查发现,大约有一半的受访者经历过骚扰或歧视,遇到过围绕包容性的问题。

  • 学术研究人员在全球范围内发表的论文总数领先。但在美国,企业研究排名第二,而政府研究在欧洲和中国排名第二。

  • 从2004年到2019年,卡内基梅隆大学(16人)、佐治亚理工学院(14人)和华盛顿大学(12人)流失到工业界的教员人数最多。

报告中专门介绍技术挑战进展的部分突出了计算机视觉系统和语言模型的进展,以及用于药物发现或有效化学和分子合成等任务的人工智能。

人工智能指数报告显示了可用于监控的AI系统的进展,比如物体检测系统YOLO。VoxCeleb也取得了相当大的进展,它衡量了从包含6000人的数据集中识别声音的能力。AI指数图表显示,2017年平等错误率约为8%,到2020年下降到1%以下。

“这个指标告诉我们,人工智能系统的平等错误率已经从8%下降到了0.5%左右,这告诉你,这种能力将在全球范围内悄然部署。”Clark说。

一个技术进步专家小组将AlphaFold预测蛋白质如何折叠的能力和GPT-3作为2020年最受关注的两个AI系统。虽然AI Index承认GPT-3取得的学习成果很少,但它引用了前Ethical AI团队联合负责人Timnit Gebru等人的一篇论文,对大型语言模型及其延续偏见的能力进行了批判。它还提到了OpenAI和斯坦福大学上个月发表的一篇论文,认为需要在为时已晚之前解决大型语言模型的社会影响。在2019年接受VentureBeat采访时,AI Index创始人Yoav Shoham对根据有限任务的表现来判断语言模型的价值表示怀疑。

VentureBeat对指数中提到的这两篇研究报告进行了广泛的报道。VentureBeat报道过的其他被引用的报告还包括麦肯锡的《人工智能现状》报告,该报告发现,在应对部署人工智能的相关风险方面,企业领导者进展甚微。另一份报告则对深度学习时代人工智能的去民主化提出了警告,共同作者表示,这可能会使不平等现象长期存在。

人工智能指数报告包括呼吁在计算机视觉、伦理学和NLP领域进行更多的基准和测试。正如GLUE和SuperGLUE等基准所证明的那样,Clark说:“我们正在用完测试,因为我们可以建立它们的速度。”创建新的基准和测试也是一个机会,使衡量标准能够反映人们的价值观,并衡量解决宏大挑战的进展,如砍伐森林。

“我认为在一个空间中获得整体问责制的方法之一是拥有相同的测试,你将所有的东西都与之相对应,或者是同一套测试。而在我们拥有这一点之前,谈论这些系统中的偏见和其他道德问题将是非常模糊的,我认为这只会阻碍我们作为一个社区,同时也让那些想要假装这些问题不存在的人更容易继续假装他们不存在或不提这些问题,”他说。

前几年,人工智能指数扩大了范围,纳入了arXiv监测器等工具,用于搜索预印本论文。AI指数的全球活力工具,提供国家AI计划之间的比较,现在适用于23个类别的26个国家。

今年,报告删除了与自动驾驶汽车进展相关的数据,而Clark表示,由于缺乏数据,报告中并没有包括完全自主武器的信息。