在阿里「死磕」自动驾驶,一个应用型AI科学家「命中注定」的故事
9 月 27 日,阿里宣布小蛮驴累计配送订单超过 100 万单,并表示将启动自动驾驶卡车研发。
长久以来,这家互联网巨头常以自动驾驶「投资者」的身份示人,但关于阿里自身在自动驾驶方面的践行以及其背后的灵魂人物王刚,外界所知甚少。
王刚,阿里集团副总裁、达摩院自动驾驶实验室负责人,先后师从人工智能领域顶级学者 Li Fei-Fei(李飞飞)和 David Forsyth。2016 年获新加坡南洋理工大学终身教职。
近日,雷锋网与王刚展开了一场对话,试图描绘完整王刚以及阿里自动驾驶鲜为人知的故事。
--
2017 年,王刚放弃新加坡南洋理工大学的终身教职,毅然决定从学术界迈入工业界。
阿里,是他的第一站,这一扎下去,就是五年。
他说,自己喜欢聚焦、认准了就磕到底,不会既要、又要还要。
相比起「科学家」阳春白雪的人设,王刚身上确实透露着一股「重庆娃」的闯劲儿。
进入阿里后,王刚作为技术负责人,与阿里人工智能实验室(AI Lab)团队一起将天猫精灵从 Demo 打造成产品。4 个月时间就成了出货百万规模的爆款。
而后,他又挥一挥衣袖,走了一条看似跨度极大、难度极高的路——从 0 到 1 做自动驾驶。
也因如此,阿里的自动驾驶故事正式按下了启动键。
一切都是命中注定
故事,要从 15 年前说起。
当时,王刚就读于哈工大电子信息与工程学院。尽管他一直对图像处理感兴趣,但他从来也不会想到,自己与人工智能结缘的方式竟然源于对一篇论文的思考。
作为非科班出身的王刚,此前已对图像处理做了不少研究,而他也比同级人更早开始关注学术界论文。
大四的某一天,人工智能顶会CVPR中的一篇论文提到的方法与王刚的想法不谋而合,于是,他给论文作者写了一封信,此后二者的交流越来越多,而这也成了一张开往新世界的船票,载着王刚漂洋过海来到了人工智能领域。
2005 年,王刚从哈工大电子与信息工程学院毕业,进入美国伊利诺伊大学香槟分校( UIUC )深造,并跟随导师在计算机视觉方向上做了不少前沿研究。
UIUC 有着全球领先的计算机专业,计算机视觉之父 Thomas S. Huang 曾在这里任教、图灵奖唯一华人获得者姚期智也曾在这里求学。
至此,王刚才算是真正跨进了人工智能领域的大门,一切都仿佛命中注定般顺利。
但王刚发现,当时在 UIUC 乃至是整个人工智能圈,很多学生做研究喜欢「刷榜」,特别在意各大赛事最后的结果。
他也清晰地意识到,顶级学者学术理念则有一个很大的共同点,就是会更关注本质问题。
于是,关注事物本身、挖掘事物背后的本质,是王刚求学以及工作期间最注重的。即便是在离开学校多年后的今天亦是如此。
在阿里做自动驾驶,王刚一直在强调 AI 技术的本质就是更好地构建一个数据驱动系统,也就是他所理解的「第一性原理」。
在与雷锋网交流的过程中,他一共提到了十七次「本质」、十六次「第一性原理」,逻辑缜密严谨。
寻找技术与生活的连接点
在自身积累了足够扎实的科研基础后,王刚于 2010 年开启了一段新的旅程——入职新加坡南洋理工大学(NTU),组建了自己的研究团队。
这一年他只有 28 岁,发表顶会论文近 10 篇,论文引用量过千。
那时,AI 圈还没进入深度学习论文的大水漫灌时代,王刚的这份成绩在青年学者当中已可圈可点。
随着时间的推移,浸泡在新加坡 AI 圈的王刚逐渐感受到,这里与美国的学术氛围以及学术应用有着明显的差异。他进一步向解释说:
“在美国就是,两耳不闻窗外事,一心只读圣贤书;包括我的导师也不太关心这些应用,更多关注的是解决 fundamental 的学术问题。但新加坡的大环境更强调与工业界结合。”
也正是在 NTU 任职的这段时间,王刚与工业界的联系开始多了起来。
据了解,基于计算机视觉和深度学习两大主线,他带领团队开发了各种 AI 技术应用,范围覆盖了服装、驾驶、医药、安保等多个主流领域,并且将一些技术转让给了商业公司。
其中,他们在 2011 年研发了一个服装检索自动系统,是比淘宝拍立淘更早的图搜应用;他们也曾推出过一个 3D 人类行为标准数据集 NTU rgb+d,后为学术界和工业界所用。
不仅如此,王刚还曾联合创立了一家名为 I3 Precision 的公司,并亲自出任 CTO,希望通过技术的手段来提高药物验证的效率。
遗憾的是,这些项目受限于应用场景等各种原因,当时并没有给市场带来变革性的影响。
不过基于此类实践,王刚也逐渐塑造一套关于「应用」的清晰认知,为其后来将能力输出给工业界、寻找技术与生活的连接点,打下了基础。
对此,王刚告诉雷锋网,学术研究是百花齐放的:有人数十年磨一剑,为了科研理想甘坐冷板凳。
就像神经网络教父 Geoffrey Hinton,曾在一场长达 10 余年的计算机科学学术之争中不占上风,有关神经网络的论文也常常被学术期刊拒收。但 Geoffrey Hinton 最终证明了自己是对的。
在此之外,同样也要有人去关注 AI 技术的应用问题——王刚认为,自己就是一个偏向应用型的学者。
而且,相比起「科学家」,王刚更愿意将自己定义为「工程师」。
在他看来,科学家要去发现新的规律、创造新的知识、构建新的准则;而工程师则是以产品的形态,让准则能够 work 起来。
经过多年的研究积累,王刚心中的准则已非常明确:
在如今的计算机架构下,AI 想要实现长足的发展就必须把数据驱动做好;如果没有足够多的养料,科学家也很难发现新的规律去推动 AI 进步。
那么,数据从何而来?
从产品出发,或许不失为一条好路子。
2016 年,王刚获得南洋理工大学终身教职。但仅仅在一年后,他就毅然离开了新加坡,举家回国,从学术界迈入了产业界。
其实,对王刚关于技术应用的思考进行一番了解后,他放弃体面而稳定的高校工作也就没有那么难理解了。
尤其现在身处中国的人工智能圈,王刚更加坚定了要走产业落地路线的决心。
他向雷锋网透露,从美国、新加坡、到中国,越往东越强调产学研,国内一些教授的晋升评奖也会将工业界的成果作为参考指标。
“很多人吐槽我们太功利、不注重深层次的研究,其实不然。因为每个国家的国情不一样,中国更注重产学研的结合,做好应用再做深也是一种途径。”
在王刚看来,现阶段只有先做到从无到有、才能慢慢再做到深、再做到优,这样更符合发展规律。
做产品,最重要的是思维问题
阿里,是王刚在工业界的第一个落脚点。
关于在工业界的去向,他曾给自己定下两个基本点:
一是自己要做继续做 AI 研究;二是团队的 Leader 要懂业务,而不是只懂研究。
2017 年 3 月,阿里启动了一项代号为 NASA 的计划,将面向机器学习、智能芯片、生物识别等前沿技术组件全新的团队,并动员全球两万多名科学家和工程师投身新技术战略;王刚正是其中的一员。
看起来,阿里非常契合王刚的需求。而且阿里是一个足够大的舞台,能够让他尽情施展拳脚。
不过,王刚加入阿里人工智能实验室后,并非一把上自动驾驶,而是临危受命接过了天猫精灵的研发担子。
根据他当时的观察,人工智能产品在云上的应用已有许多案例,如人脸识别、语言识别等。但是端方面,还是一个相对空白的市场。
而且终端产品需要考虑到场景、计算等多方面的制约,挑战性更大,是为自己打开工业界入口的好机会。
几个月后,王刚和团队一起研发出了初代猫精「天猫精灵 X1」,天猫精灵正式从 demo 走向可以交付的量产产品,并且很快就成了出货百万的爆款。
眼看天猫精灵的发展越来越好,就在这时,王刚又做了一个出人意料的决定——主动请缨,带领团队从 0 到 1 做自动驾驶。
“这个事情是值得做的,它属于技术应用的第一象限,既有社会价值也有商业价值。”王刚解释道。
而他的这个决定,也获得了阿里高层的支持和重视。
2017 年 10 月,NASA 计划的实体承载组织达摩院正式亮相,其中就下设了自动驾驶实验室,随后由王刚担任掌舵人。
最初,由于没有合适的场地,王刚就带着几个小伙伴在西溪园区的车库边上进行简单改建,然后开始买车、改装、路测。
这段车库「创业」的历程,就是小蛮驴的源起。
尽管进入工业界之后的一切都还算顺利,但王刚也坦言,以前做的前沿研究很多都没有用武之地了,他更多的还是给团队上带来思维上的转变。
比如,无论是做 NLP 还是做视觉,无论是做天猫精灵还是小蛮驴,团队都要思考两个问题:
一个是怎么获取场景数据,一个是怎么用好这些数据。
据王刚分享,他刚接手天猫精灵时发现语料短缺问题比较严重,这会直接拖慢产品化的进度,但由于还未形成产品,很难从用户处获取语料;相当于陷入了一个矛盾的困境。
为了解决这个问题,王刚提议花钱找志愿者编辑语料,试图通过这种方式来弄明白用户与智能音箱交互的喜好,然后再把这些语料收集起来,用于算法训练。
另一方面王刚发现,很多工程师小伙伴习惯使用最前沿的技术去解决最简单的问题。
比如,智能音箱经常会接到开灯关灯的指令。
由于定向思维,很多工程师会让智能音箱应用自然语言理解技术去理解开灯关灯这样的短语。但王刚认为这是一个非常朴素的问题,写一个规则就能轻松解决。
自动驾驶也是如此。
起步做自动驾驶时,阿里一直是以乘用车作为实验平台来跑算法,当时并没有明确的产品方向。在宣布进军末端物流赛道后,难免引起了团队里一些同学的心理落差。
不过,王刚坚信末端物流是一个正确的战略选择:
技术人员都希望做看起来更有挑战事情(比如 Robotaxi),这种对待技术的态度应该鼓励,但大家有时候可能被外面的噪音给干扰了。
他进一步说道,自动驾驶系统无疑需要数据驱动,如果只有几百辆测试车,数据量够不够支撑公开道路上完全无人驾驶的实现?答案是否定的,而且也没有任何一家公司能够负担起几万、几十万辆路测车所需的资金。
与此同时,国内末端物流未来的市场规模预计会超过 300 万台,市场需求是有的。
基于这样的思考,阿里选择先找到一个垂直产品落地,然后再通过这个产品产生价值、推动业务发展,从而实现规模化并且学习更多的场景知识。
而末端物流与阿里业务生态是完美吻合的,落地场景无须担心。
开启大小蛮驴时代
事实上,阿里自动驾驶实验室很少对外发声,王刚也不喜出风头。
“大家没必要相互制造焦虑。只有真正做到的时候,我们才说做到。”尽管王刚这句话有些拗口,但这是他一直信奉的原则。
低调耕耘三年多,他们在去年 9 月正式推出了小蛮驴。一年后的今天,他们又迎来了一个里程碑:
小蛮驴配送快递突破 100 万单。
据了解,小蛮驴已落地全国 22 个省份 52 个城市 160 个校园;北至哈尔滨、南至南宁,累计为 20 多万人提供了快递服务。
就目前而言,小蛮驴的车队规模超过 200 台车,每天常态化超过 10 个小时。三年后车队规模预计将扩容到 1 万台。
除了规模上的扩张,在服务方面的改善王刚也进行了分享。他认为对一款新生产品来说,用户的使用体验尤为重要,无论是价格还是服务的效果上都需要符合用户的预期。目前,用户对小蛮驴的满意度维持在 98% 。
面对这些年外界的一些质疑声,王刚也回应表示,末端物流虽然是低速场景,但并不是「低级难度」。
技术层面。物流小车与其他自动驾驶车辆一样涉及到算法、算力、硬件、系统等多个维度,而且要在公开道路上行驶。
场景层面。末端物流属于典型的非结构化场景,交通参与者除了人和机动车,还包括各种小动物、非机动车、异形路障等,并且没有规范的车道设计和通行规则。
成本层面。以大规模应用为目标的自动驾驶产品,如果不能将成本降低到量产水平,一切都是纸上谈兵。
总而言之,小蛮驴的 100 万单只是一个起点,它为阿里在自动驾驶技术上的进一步发展打下了良好地基础。
“至少代表着我们看到了自动驾驶规模落地的曙光。”王刚如此评价小蛮驴的成绩。
基于小蛮驴的自动驾驶技术框架 AutoDrive 以及智能仿真平台等,大蛮驴的研发也在紧锣密鼓的准备中。
王刚告诉我们,大蛮驴是达摩院正在研发 L4 级自动驾驶卡车,适用于城配物流,应用场景包括城市快递网点-快递末端节点之间的物流配送等。
据介绍,目前大蛮驴已与菜鸟开始小范围的路测合作。预计 3 年之后,能在上万条公开道路上见到这款无人卡车的身影。
同时也不排除阿里日后布局乘用车的可能性。
毕竟,阿里做自动驾驶的整体逻辑已经开始逐渐清晰——从低速到中速到高速,从垂直领域、非载人领域逐步泛化到更主流更广泛的场景。
写在最后
“我很爱折腾。”在交流的过程中,王刚曾这么评价自己。
从电子信息工程跨到人工智能、从海外回到国内、从学术转到工业、从天猫精灵做到小蛮驴。他确实一直在尝试各种挑战、不断扩大自己的能力边界。
“我也很幸运。”他回忆起自己的过往。
他告诉我们,当初进入工业界,太太十分支持他的决定,并与他一同回国;当初他要做自动驾驶,即便面临巨大的不确定性,公司也非常相信他的判断。
如果他不爱折腾,又少几分幸运,阿里自动驾驶的故事可能会完全改写。
但好在,一切都是最好的安排。
雷锋网雷锋网雷锋网
评论