揭秘商汤研究体系:这家中国AI视觉公司正加速冲破边界

2019 年即将翻页,外界纷繁议论各式各样的"冬天"之际,到哪里寻找以技术进步为底色的"下一个春天"?

仍有一些场合最密集地聚合了一批创造"春天"的人。例如在计算机视觉领域的国际计算机视觉大会 ICCV。

10 月 27 日-11 月 2 日,最新一届 ICCV 在韩国举行,参会人数较去年暴涨 2.41 倍达 7501 人,接收到的论文数量也是上一届的 2 倍多。全球各地的计算机视觉学者在会场中你来我往、摩拳擦掌,共同推进计算机视觉的交流和落地,展现着这个领域旺盛的生命力。

回顾计算机视觉技术的发展,从 2012 年的 ImageNet 深度学习一鸣惊人、到 Ian Goodfellow 一夜灵感带来 GAN 的问世,这个领域似乎经历过不少堪称"如有神迹"般的时刻,现如今行至 AI 最热门研究和应用方向的地位,更持久的创造力将在于更大范围的协同创新。

这个判断反映在参会的中国 AI 视觉公司商汤身上,他们变得更忙了:

揭秘商汤研究体系:这家中国AI视觉公司正加速冲破边界

图丨商汤在 ICCV 主办的 SenseTime PartyTime(来源:商汤)

今年,商汤及其联合实验室共有 57 篇论文入选 ICCV 2019(包含 11 篇 Oral),同时在 Open Images、COCO、LVIS 等 13 项重要竞赛中夺冠。成绩刷榜之外,商汤还在 ICCV 2019 期间组织或参与主办了多个 Challenge 及 Workshop。

一个更重要的变化是,其在创新生态发展上效果初显:由商汤及联合实验室研究团队去年发布的开源物体检测框架 MMDetection,在今年各大比赛中被众多参赛队伍广泛使用,Open Images、COCO、LVIS、Mapillary 等比赛中的多支获奖队伍都使用 MMDetection 作为基准代码库,团队去年提出的 HTC、Guided Anchoring 等方法也成为今年诸多队伍的关键助力。

那么,商汤为什么让自己这么忙?

揭秘商汤研究体系:这家中国AI视觉公司正加速冲破边界

图丨商汤科技联合创始人、研究院院长王晓刚(来源:商汤)

"商汤的研究一定是多元的,创新也是无边界的",近日,商汤科技联合创始人、研究院院长王晓刚在接受 DeepTech 采访时如此表示。他曾师从汤晓鸥,2009 年加入港中大多媒体实验室,现为商汤研究院院长。

他认为,接下来商汤要想在人工智能领域持续输出创新技术,仅仅靠自身的研发力量是不够的。事实上,汤晓鸥也在多个公开场合表示过,商汤将是一个平台型公司。而平台型公司往往需要非常强的产品推陈出新能力,需要持续的创新技术傍身。

为此,商汤正在构建一个新的 AI 创新生态。在这个生态中,有三个层次的主力人群:商汤内部的研究团队、港中大-商汤联合实验室、以及与商汤有合作关系的全球顶尖大学。

从 2017 年的 30 亿估值、2018 年的 45 亿估值、再到 2019 年的 70 亿估值,如果说多轮融资的节奏串起商汤发展的"明线",那么,在这条明线之下,商汤庞大的研究版图扩张则是另一条重要的"暗线",事关这家公司人工智能技术创新的真正源头和边界所在。

接下来的一段时间内,这条"暗线"上的新悬念是:以商汤公司为核心的"创新生态试验场",将如何打破企业缺人才、学校缺老师、科研缺经费的 AI 领域边界层层的"怪圈"?又会给商汤这家行业焦点公司带来怎样的机会和挑战?

7 年前,这个方向的创新宛如"黑胡同中行走"

事实上,商汤的科学家创业故事,本身就是一个关于学院派"破圈"的范本。

2011 年,深度学习还没有如此家喻户晓时,以汤晓鸥和王晓刚为首的港中大多媒体实验室团队率先开始关注深度学习技术,是国内最早开始关注深度学习的团队之一,甚至比 DeepMind 还早两年专注于深度学习的研究。港中大多媒体实验室由汤晓鸥于 2001 年创办,被认为是"CV 界黄埔军校"。2012 年整个 CVPR 接收的论文之中,只有两篇和深度学习有关,皆出自该实验室。到了 2013 年,另一顶会 ICCV 有 8 篇深度学习相关的论文,港中大多媒体实验室更是贡献了 6 篇。

但这些研究具体将怎么改变这个世界,答案远不如现在清晰。团队发表相应的论文,也多为非常纯粹的兴趣驱动型的学术研究。

"当时在做这件事情,就相当于你在一个黑的胡同里走,你本就不知道前面什么时候能够走出来。深度学习究竟能够做到一个什么样的一个程度,其实是没人知道的",王晓刚如此形容。

无独有偶,同样是在 2012 年,世界范围内的一大标志性事件照亮了这个方向——Hinton 团队开发的 AlexNet 算法获得了图像识别的突破,并在当年 ImageNet 比赛夺冠。那次比赛也是业界公认的深度学习技术走向成熟的一大里程碑。

而对于港中大多媒体实验室来说,其计算机视觉研究则在 2014 年迎来"量变到质变"的节点:商汤团队自主研发的人脸识别算法全球首次超越人眼识别准确率,这意味着计算机视觉达到了工业应用的红线,有了商业化落地的可能。

计算机超过人眼,这样的里程碑事件让嗅觉敏感的投资人非常兴奋,2014 年 10 月,商汤科技在香港科技园内正式成立。后来,多媒体实验室研究深度学习的几位关键人物,构成了商汤研究的核心团队,包括研究院院长王晓刚、港中文-商汤联合实验室主任林达华教授等。

以技术从实验室诞生到落地产业的视角来看,2012~2014 年期间,团队的重心非常纯粹地放在学术突破上。商汤成立之后,团队还持续参加着几项主流的计算机视觉挑战赛,因为算法虽然超过人眼,但距离真正的产业化价值仍有很大的优化空间,他们也需要以这种方式去持续向外界证明这种技术的领先性和团队实力。

"我们连续参加了三年计算机视觉领域难度最大的挑战赛 ImageNet,14 年的时候我们是第二名,谷歌是第一名,15 年的时候商汤得了一项冠军,16 年得到了 3 项冠军。

这 3 年的时间里,因为计算机视觉大规模落地还没有发生,我们怎么去证明自己这样的一个新技术的领先性以及技术实力?当时还是通过参加这样的世界级的人脸识别比赛去展现技术的竞争力",王晓刚解读到。

进入产业后才发现,AI 创新被"消化"掉的速度之快

2016 年以后,由于整个视觉算法的突破越来越多、GPU 为代表的高性能算力到位、以及大数据的稳定积累,几大要素历史性地汇聚成一股力量,显著推动深度学习进入落地应用潮。

王晓刚也是在那时候起负责商汤的技术研究。但此时商汤所做的研究又和在港中大实验室中有了很大不同,因为从互联网金融场景简单的网上人脸注册再到手机端上的人脸识别,计算机视觉的大规模落地征兆开始显现。

例如,当时手机厂商已经注意到在手机上应用深度学习的机会。但 AI 技术从实验室进入到手机,手机其实对算法的创新性和实际体验要求特别高,"需要团队不停地有新技术出来"。

换句话说,商汤的创始团队在计算机视觉这个方向上纵然有近 20 年的创新积累,但它此前在市场上是从未验证过的,它究竟能不能跑的通是存疑的。

而且,市场是很挑剔的,对技术创新的需求也是非常迫切的。长期研究孵化出的科技创新所带来的差异化机会,很快就被推向市场,同时市场提出更多的新需求。这就导致新的技术从实验室应用到产业中,它实际上还需要更多的创新,而且创新的节奏要高于单纯的学术研究。

图丨商汤科技联合创始人、港中文-商汤联合实验室主任林达华教授(来源:商汤)

商汤科技联合创始人、港中文-商汤联合实验室主任林达华教授对此深有体会。他也是商汤的核心人物,现为香港中文大学-商汤科技联合实验室主任,与汤晓鸥和王晓刚一样拥有麻省理工学院背景,是带领联合实验室团队征战学术顶会的核心人物。

但这位学术界的大牛评价研究的价值似乎不那么"学院派"。"学术界想象的需要解决的问题,跟真正产业落地需要解决的问题,是有很大的区别的。研究论文可以做得很漂亮,但最后却可能没有什么应用的价值",他在接受 DeepTech 采访时如此表示。

"在 AI 落地产业的过程中,我们不仅需要算法上的创新,特别重要的是找到行业真正的挑战",他说,"商汤在广泛落地的实践过程中,接触很多不同的行业,因此可以接触到真正的需求和痛点。我们由此会发现一些学术界此前根本就没有关注到的一些事情"。

在寻找行业真正挑战的过程中,一个发生在商汤科学家身上有趣的变化是,发顶会论文给商汤科学家带来的快感,已经远远不如合作厂商的发布会上公开其视觉算法"Powered by SenseTime"的那一刻。

如果说过去这群人的春晚是业内的顶会,那么现在,合作厂商的发布会已取而代之,成为这些科学家的新"春晚"。

"不能仅仅停留在 AI 落地本身"

现在整个 AI 领域,也有越来越多的声音认为,工业界对未来新技术挑战的判断对学术界来说是非常有价值的,这也是除了企业要给大学提供研究经费以外,大学愿意和企业合作的原因。

对于工业界来说,他们最大的诉求便在于,学术界抽象的创新思维能够给工业界具象的技术问题带来更好的解决方案。

具体到商汤自身的发展上,相比一些采用开源框架的 AI 企业,商汤一方面强调使用自己研发的底层技术,一方面也已从早期的人脸识别中跳脱出来,在多个领域进行技术研发,布局的核心技术边界已经涵盖人脸技术、深度学习框架、图像识别、文字识别、图像视频编辑、3D 视觉、增强现实、自动驾驶、智慧健康等等。

同时公司落地的业务线也呈现出不断突破边界的态势。恐怕很少有新创公司比他们更迫切地希望"找到更多行业真正的挑战"并解决之。

换句话说,这家继承了港中大多媒体实验室创新基因的公司,对于 AI 创新的渴望又到了新的高度。

那么,找到行业真正的挑战之后,商汤真的就能解决这些问题吗?

这个问题也正是商汤眼下建立全球 AI 创新生态的出发点。在这个创新版图中,"解决行业真正挑战"的三股主要力量分别是:商汤内部的研究团队,和港中大共建的港中大-商汤科技联合实验室、以及与商汤有合作关系的大学。

其中,商汤自身的研究团队将主攻更靠近业务线的技术突破,港中大-商汤科技联合实验室负责将单点的工业技术问题抽象成更具普适性的底层算法问题,并和商汤同步最前沿的算法基础创新研究,而合作高校则定位在将其特色的基础研究方向与商汤的业务形成优势互补。

在最后一点上,商汤与浙江大学建立的联合实验室是一个很好的案例。

视频加载中...

视频丨商汤“ SenseAR 高精定位和内容增强解决方案”(来源:商汤)
同时定位与地图构建技术 (Simultaneous Localization and Mapping,简称 SLAM ) 是 AR/VR、机器人、自动驾驶等应用中的一项关键技术。目前业内基于 SLAM 技术开发的代表性产品有微软的 Hololens、谷歌的 ARCore 以及苹果的 ARKit 等。浙江大学 CAD&CG 国家重点实验室在 SLAM 方面的研究实力很强,不仅在国内领先,而且在国际上也属于顶尖水平。

于是在 2017 年,商汤宣布了与浙江大学 CAD&CG 国家重点实验室整合双方资源,成立三维视觉联合实验室,专注在 SLAM 和三维重建方面的前沿研究,并重点探索在自动驾驶、机器人、AR/VR 等场景中的落地应用。商汤每年会为这个联合实验室提供人力、科研经费方面的支持,同时公司和学校的研究人员也会定期共议技术进展和联合攻关技术难题。

现在,这个联合实验室输出的 SLAM 和三维重建技术有力地加强了商汤 SenseAR 平台建设,并将 AR 基本能力赋予手机厂商。在与苹果的 ARKit、谷歌的 ARCore 你争我赶的竞争过程中,中国的手机厂商得以没有掉队,正是基于商汤的 SenseAR 原创技术。

图丨浙大-商汤三维视觉联合实验室副主任章国锋(来源:商汤)

浙大-商汤三维视觉联合实验室副主任章国锋教授对 DeepTech 特别提到,产学研问题是目前的技术落地的痛点。

一般来说,高校的研究团队并不适合直接做产品。高校和企业应该做各自擅长的事情,并进行紧密合作。共建联合实验室是一个比较好的合作方式:高校的研究团队主要做偏前沿探索性的研究和提供技术指导,公司的研发团队主要负责工程和产品化,两边能够经常一起交流讨论,甚至一起工作,这样的校企之间的紧密合作和联合研发,可以实现技术的快速落地。‌‌‌此外,联合实验室还有助于公司保持对前沿技术的紧密关注,避免掉队。

正如王晓刚所说,学术背景和行业背景的智力资源可以在这个 AI 创新生态中循环起来。一则继续打通从技术创新到产业应用的闭环,二则实现人才从学术研究到应用研究一体化培养。这样的局面可以打破行业边界的研发力量,也让商汤的研究人员参与到各个行业创新项目的研究中,储备 AI 时代的复合型人才大军。

"和商汤合作的高校,学校的学生和老师有加入商汤工作的机会,这是学校的人才向商汤流动,另外还有一个相反的方向,就是商汤的员工可能在工作一段时间后又有了深造的想法,希望到大学中去,那我们也会照顾这种想法,把他们推荐到大学里面去。我们已经有了一批这样的学生,他们硕士的时候在商汤实习,实习结束以后进入学校攻读博士,博士毕业以后又回到商汤,继续开展他的工作,有这样的一个循环",他说。

现在,商汤已经分别与港中文、浙大、上海交大、北大等建立联合实验室,与清华、中国科学院等高校研究团队建立科研合作关系。今年的高校国际化合作征程中,商汤则宣布与新加坡南洋理工大学成立联合实验室。

对于构建这样一个有着丰富创新主体的生态更深层次原因,林达华进一步解释道,"追求多元的研究能够让整个集团去更加健康地发展。如果我们能够实现多元化,能够建立起这样的生态,我想未来商汤的研究能够真正成为持续创新的源泉……成立至今,我们很大的变化是业务线的增加,不变的是追求创新的内核"。

事实上,一家新创科技公司往往之所以成为业内的明星公司,其成长必与行业大势所交织。商汤的这些大动作,其实也是 AI 产业整体特点和趋势的一个缩影:眼下科技产业的发展,个体的创新带来巨大产业改变的天才型故事已经越来越少,科技产业也进入到了一个高度协同创新的阶段,放在 AI 领域,参与协同创新的主体又更加丰富,不但涵盖产业链的上下游,还有高校机构。

与互联网主导的上一轮科技产业创新浪潮不同,AI 领域的创新创业对于产学研一体化的依赖程度非常高,整个链条的起点一定是学术研究,同时也要借助产业端的需求来真正实现社会价值,高校和企业在整个链条中的基本功能不同,但双方会有很强烈的打破边界的原始动力,这也是为什么当下涉及 AI 研究的公司几乎没有不和高校合作的原因。

(来源:麻省理工科技评论)

从整个 AI 发展的现状来看,AI 技术的产业化也正在由学术界主导的阶段,过渡到由学术界和工业界共同驱动。

但这绝不意味着把学校里的老师都抓到公司来。"这样的 AI 创新生态一定会出问题",林达华表示。因此,建立 AI 创新生态的关键,"不在于是由企业主导、政府主导还是高校主导,而在于以一个正确的、跑得通的方式去做这件事情"。

新的 AI 生态的形成,又会有什么旧东西逐渐淡出舞台?

或许正是企业的边界感,或者说边界型的企业文化。

变革比技术创新更为抽象的企业文化,是真正的"牵一发而动全身"。跨领域合作、跨产学研合作、跨区域协同,这些都是与旧产业世界强调竞争和边界并不那么嵌合的概念,但在接下来的 AI 时代,这将会是新的常态。

即将过去的 2019 年已为此埋下草蛇灰线,替换旧秩序的按键悄然按下,新的发展命题正在展开。