X

戴德曼:让我们聊聊人工智能创业

2018年开始了,除了继续转发业内新鲜,重要的新闻视频,传播人工智能知识,我觉得还应该响应吴恩达的话“论文够多了,让我们做点实际应用吧。”,所以我会有一半的版面继续讨论人工智能(不仅仅局限于机器学习,深度学习),拿出一半的版本去讨论落地实现,干实事。

纵观软件工程的发展和人工智能的演进,有一个有趣的现象就是,在过往的岁月里,人工智能一直是和数学为伍,矩阵论,概率论,群论,黎曼几何,微积分之流的理论,就算是落地也是C,Matlab,Octave,R,SAS为伍,软件工程则是操作系统,数据库,编程语言,软件架构,TOGAF,SOA,微服务,DevOps,大前端等五花八门的工程,专有名词可以无穷无尽。所以,看上去两者之间可能唯一的交集就是软件帮助人工智能编码这件事情。思想比较敏锐的人可能马上意识到,要想落地,人工智能只是一个核心因素,还有很多其它因素。戴德曼认为来一场人工智能的创业,基本上就会把这些因素都串起来了。

人工智能的创业者需要明确公司的商业战略去定位设计的边界和方向,需要设定公司组织架构去组织各种资源,了解架构的变数(一个公司团队里面总有最强的一块,也一定有最弱的一个点,不是行业最佳实现就是公司的最佳实现),需要借助项目管理去规划和推动架构设计和架构实现,需要明了市场开拓的方向,重点和路线图,时间表,来定自己工作的优先级和时间表,需要深刻理解和定义业务运营策略和工作流程,确定架构的业务能力,需要紧跟产品设计和及时反馈人工智能的能力去实在设计人工智能服务(不谈系统的原因是软件的发展已经到了服务或者函数这样的颗粒度,为什么?我会另外专题解释,这里就直接拿出结论给大家。),需要充分的规划和定义所有使用的系统数据,公司数据,域外数据的数据源,数据采集路径,数据清洗流程,数据可用度,数据更新频次,数据保存地点,数据到特征提取流程,以及为了支撑这一切的数据平台,数据处理流程,数据团队组织架构,需要做好自己的家庭作业,算法架构,技术架构,一方面是如何设计合理的算法组合去从数据中找到洞察,一方面是如何找到合适的硬件和软件,合适的代码,合适的开发人员去把这一切集成起来,形成业务能力,如果遇到市场上无法找到的硬件和软件,你还要自己去设计硬件,设计软件,还要亲力亲为的参与开发过程,帮助解决硬件设计中的难题和问题,协调硬件和软件功能边界,协同点,时间,帮助解决软件编码过程中的难题和问题,协调开发和测试,考虑和设计运维系统,运维流程,充分和供应链管理合作,确保从公司外部引入的能力在合适的时候,合适的地方被合适的用起来,也在合适的时候被替换掉,所有的这些流程设计,架构设计需要考虑三个重要的因素:人,钱,知识,你确认你的架构有具备合适知识的人来实现,不够的话有足够的预算去采购,并且这一切都在业务可以赚回来的钱,并且扣除了各种成本之后还可以承受的范围之内。

这就是一个人工智能创业者需要操心的事情,是不是很多,很杂。不用担心,这些都是从宏观完整的操作的层面上要设计的范围,其实,我们聚焦到人工智能创业的核心工作上来,主要的事情其实还是怎么结合人工智能到具体的实现上面去,这里我们拿一个例子来说。比如,戴德曼有一家创业公司,公司的战略是利用计算机视觉智能去完成一些很酷的事情,比如完成一场话剧的自动拍摄。

从公司的商业战略来说,谁会为这个创意买单?戴德曼去找了投资拍电视剧的朋友,他的朋友说这个创意很疯,但是很有趣,于是问戴德曼要多少钱,多长时间可以拿出这个产品,戴德曼想了想说需要两年(他心里想,Magic Leap三年才拿出一个产品,两年不算久吧),至于钱嘛,随口报了个1000万。他朋友说,现在拍室内剧基本上每集700-1500万,你要能搞定这个,5000万吧。然后戴德曼开着自己的本田雅阁回家开始写商业计划,此处省略一万字,你要想知道怎么写商业计划,特别是满足红杉,真格,阿里各种基金要求的计划,参见一个创业者,如何把你的商业计划书写好?顶级投资机构流出:成功融资的BP/商业计划书写法就这三个套路三个月拿投资的商业计划书之团队描写技巧。等商业计划写好了,戴德曼又去找这个朋友,这个朋友提了一些意见,两个人改了改,然后直奔北京,碾转纽约,伦敦,东京,巴黎和新加坡,大概做了45场商业计划讲演,敲定了两家VC,然后在北京国贸顶楼的酒吧包了个场开了个投资发布会,一家VC领投3000万,另外两家跟投1600万,戴德曼的朋友投了400万。有钱了,一场盛筵开场了。

戴德曼是一个很谨慎的人,所以开始只找了两个之前合作的兄弟,一个给海康威视打过工(简称大海),一个是商汤科技(小伤)跑出来的。经过许愿和画饼,三个人先在家里蹲,一个月100来块的电信宽带,每天的QQ共享桌面,github交7美刀就开始了创业,笔记本呀,NVidia的显卡啊,都是各自捐的。三个人的第一个会议:大海直接说戴德曼不会做硬件,硬件的事情就闭嘴,小伤没吭声,但是肯定算法这一头也是当仁不让的,戴德曼觉得也行,自动成为产品经理,然后开始了创业。

一个星期过去了,第一个产品出来还真的是一个滑板车,大海把Nvidia的那套智能视频方案搬出来,小伤贡献了视频对象框定,人形追踪,人脸识别三个算法,戴德曼自己拿Vue.JS写了个页面,具体情况见下图:

第一个版本:滑板车

这个阶段几乎无法拿出去路演,就是一边拍摄,一边在视频显示上打框,跟这演员跑。而演员就是大海的儿子,戴德曼的闺女,摄像头是笔记本自带的。

可是戴德曼提议招第一个员工,并且在第一次员工代表扩大会议(也就是三个人)上通过了。第一个员工是一个软件学院的老师,白天可以写代码,晚上去夜校给学生上课,教JAVA,教Python,教Javascript,...基本上除了汇编不教,什么都会一点。于是两个礼拜以后,第二个版本出来了,增加了导演界面,在视频上增加演员的脸的方向,于是导演会设定摄像机的路线,这样摄像机就能够自动追踪演员脸的同时,还能根据导演的拍摄路径去拍。

第二个版本:电动滑板车

第三个版本一直难产,原因很简单,为了很精确跟踪演员,需要两件事情,第一就是精确的定位演员的位置,那么笔记本的摄像头不够用了,于是每个人配了个高清摄像头(300美刀),可以结果还是不够理想,因为第二个问题就是摄像机运动要很精确,而云台是不够的,镜头伸缩也是问题,转动和移动都会有误差,这样这个反馈闭环在自动运行一段时间之后就会完全偏移掉。这样可以去路演,因为可以演示5秒,过了5秒就失控了。

第三个版本:难产

小伤尝试了市面上各种算法(detectNet,GoogleNet,AlexNet,LeNet,darknet,dlib,OpenCV RCNN,faster RCNN等)无果,最后发现,要想达到商用精度,还是要自己写,于是这一写就是4个月过去了。4个月大海也没有闲着,买了一堆摄像头(海康,大华,索尼,松下,NEC,思科,西门子),摄像头精度从2K,4K,6K一路上到8K,终于算法能够在8K情况下,演员不要前后运动的时候可以很精确的捕捉演员动作了。可以另一个问题还是无法解决,市场上的摄像机云台基本上只有镜头伸缩,镜头转动两个方向,步进电机只能控制0.1度一格,在浪费了12中云台之后,大海打起了无人机云台的主意,比如禅思Z15之类,加上原有云台运动,这样构成4轴云台。经过前后半年的时间,第三版软件只是改了很多bug,硬件有了脱胎换骨的变化,一个6轴定制云台上架着一台8K超清摄像头诞生了。

禅思Z15

这个时候,戴德曼带着这样的摄像头,和一台笔记本,一部手机开始去给导演们演示。导演们都很忙,但是碍于戴德曼的VC也是导演们的金主,所以戴德曼可以带着设备在片场蹲下来,这一蹲就是三个月,更复杂的问题来了,因为导演们的要求真多,摄像机的路线,演员的走位,录音师的话筒,灯光的位置,现场空间里面运动的不只是演员,摄像头,麦克风,灯光,反光板,数量都还不止一个,于是大海人手不够了,各种硬件都要同步选型,定制,测试,小伤也忙不过来了,各种视频特效,音频特效,ASR,TTS,音视频同步等算法研究,组合,实验,计算力也不够了,服务器一台接一台的买,运维的人也加入了,办公场地也要做起来了,这个时候基本上戴德曼全是在跑后勤工作,买,买,买......

第三版:自行车

这里面的问题越来越多,算法越来越多,需要训练的视频,音频,文本越来越多,算法需要包装成服务才能被系统调用,服务部署的时候又遇到问题,有的算法是R的,有的算法很庞大,用到了scala,大部分的算法是python,但是大部分都需要并行处理,这个时候第一个从阿里找来的架构师提出来使用Docker部署全部的服务,一个月过去了,于是所有的服务都迁移到Docker上面,使用K8S管理,服务和服务之间使用Kafka和RabbitMQ通讯(TIBCO通讯要收费,等收支平衡之后再切换)。

所有的数据,从视频,音频,图片,文本存储都使用了Hortonworks的大数据处理平台。

因为在检测视频,音频和在线编辑的时候,大部分都是实时系统,数据和查询都是通过各种类型的缓存和内存数据库完成的。文本使用的是Key-Document的MongoDB,音频使用的是Key-Value的Redis加上HDFS,而大部分特征工程使用的是列式数据库HBase,考虑到很多视频的分析日志归档,Cassandra成为快写的首选。最后,大部分的算法都无法形成有效的常识,所以单独使用Neo4j存储了知识图谱。

终于第一年快过完的时候,第一套系统终于出来了,并且用于舞台剧的拍摄。而这个时候,整个团队已经扩展到15个人,使用了很完整的云技术栈,这套系统还在继续演进中......

这个时候,更多的问题和麻烦来了。团队扩大到超过10个人的时候,画饼和许愿已经不能针对这么多人了,已经画过饼子的人还能够自我驱动,奋勇工作,后来的人就只是奔着一个月的工资和未来做大的愿望,这个时候,第一个专职市场开拓人员被招募了,第一个项目管理人员被招募了,第一个人事和行政人员被招募了,第一个开发人员转成专职的产品经理,大海,小伤,戴德曼成为公司的CTO,CAO,CEO,这个时候危机逼近了,资金消耗骤然增大,但是现金流依然不见,打开市场的压力已经超过开发和优化新的产品,大部分的电影和电视剧的拍摄都是一次性的预算,谁也不会去采购这样一套价格昂贵的拍摄和编辑系统,而市场上已经有了好几套非线性编辑平台和系统,导演已经习惯有灯光,录音,摄影师和现场助理,不习惯使用这样一套系统来拍摄......

整个第二年,颗粒无收。VC和CxO们开始了第二轮融资路演之路,一方面不断的找各种电影,电视剧制作单位,一方面不断的去和更多的投资人宣传,欲知后事如何,2018年底见分晓。