2018 NLP领域持续火爆,厂商挖空心思寻找落地场景
自然语言处理(Natural Language Processing,以下简称NLP)作为人工智能的核心技术之一,最早开始进行商业落地。近两年,计算机视觉、语音识别技术突飞猛进,仅凭单点技术就诞生出估值超过十亿美元的四大AI独角兽公司,广泛应用在安防、医疗、零售等领域,撬动起万亿市场。然而,NLP技术的发展和商业落地明显更为缓慢,或许是一直没有找到刚需场景的原因。
雷锋网发现,2018年,NLP技术在不少场景焕发新的活力,例如,智能语音交互与IOT平台的结合、翻译机、AI教育、AI创作等领域。
智能语音交互+IoT
2017年智能音箱掀起一阵热潮,也带动了更大范围上智能语音交互与物联网平台的结合。
2018年,各大公司都在建立IoT平台,例如:小米IoT开发者平台、阿里云Link、百度“天工”、京东Alpha-IoT、QQ物联平台、微软Azure IoT,这些公司也都有自己的智能语音助手。小米、阿里、百度、微软等已经明确将智能语音+IoT看作IoT平台以及对话式人工智能发展的关键。
2018年以来,对话式人工智能、智能终端在微软的战略地位明显攀升。5月21日,微软在北京召开2018人工智能大会,微软全球执行副总裁、人工智能及微软研究事业部负责人沈向洋强调了微软新的世界观:智能云和智能边缘。
微软Azure是微软专为人工智能打造的云平台,为了成为最佳的人工智能云平台,还将与以下四个方向结合:认知服务、对话式人工智能、开放平台与工具、实时人工智能基础设施。其中,运行于Azure的认知服务包括了语音、视觉、语言、机器翻译等24项人工智能技术能力,将以API的形式提供给开发者。而对话式人工智能则是微软的语音、语言、搜索等多项能力的集大成者,能直接在各种终端落地。
微软的对话式人工智能主要包括微软小娜和微软小冰。而微软小冰近年来逐渐占上风,成为微软对话式人工智能的代表。7月26日,微软小冰正式升级到第六代,“全双工语音交互感官”和“共感模型”大大提升其对话能力,还发展了写诗、作词作曲演唱、文字摘要、撰写新闻等各项语言处理能力。微软小冰可以说是微软目前NLP和语音交互的集大成者,在技术上远远领先其他对手。目前微软小冰已经将自己的技术能力全面开放,寻求多方面商业合作,不容小觑。
与微软相比,对话式人工智能在百度AI战略中的地位还要更高。在百度大力发展AI以来,百度的人工智能战略逐步清晰,主要聚焦在三个方面布局:信息流、对话式人工智能系统DuerOS、自动驾驶Apollo。
2017年,百度打造了对话式人工智能操作系统DuerOS,为合作伙伴提供核心技能和行业解决方案,可以接入机器人、手机、电视、音箱、汽车等多种硬件设备,同时激励开发者在平台上开发更多的技能。
据百度2018年第二季度财报显示,6月份,DuerOS语音唤醒超过4亿次。截至2018年7月底,搭载DuerOS的智能设备激活数量已突破1亿台。同时,DuerOS的合作伙伴数量已经超过200家,搭载DuerOS落地的主控设备超过110多款。DuerOS几乎全部覆盖了电视、手机、音箱、儿童设备、汽车等各类场景,而且每个领域DuerOS都和国内头部厂商达成了合作,如华为P20、P20 Pro、vivo X21、NEX,OPPO FindX等。
再来看小米。小米集团人工智能与云平台副总裁崔宝秋曾表示:从 2016 年起,AI 是成为小米未来十年的核心战略,在 AI 上投入再多都不为过。不过从实际层面上来说,小米 AI 目前两大重点还是在旗下的智能手机和小爱同学上。
在崔宝秋看来,小爱同学就是AI与IoT结合的产品。在AI+IoT上,小爱同学已经取得了一定的成绩。8月15日,小米宣布截至7月底,小爱同学月活跃设备超过3000万。今年7月小爱同学唤醒超过10亿次,累计唤醒已超过50亿次。
小爱同学目前已经可以语音控制10大类、30多款,共计8500万智能设备,使用最多的三个场景分别是:音乐、有声读物的点播;闲聊;智能设备控制(包括开关灯、电视机开关、插坐)。
几乎没有硬件基础的阿里,在2018年初也宣布全面进军IoT,智能语音交互是其打造IoT的一大关键点。在阿里达摩院机器智能技术研究院语音交互智能实验室首席科学家鄢志杰看来,语音是最自然的与 IoT 交互的方式,语音交互智能是 AI 与大众最近的接触,语音交互智能将成为 IoT 与互联网内容和服务的桥梁。
除了天猫精灵、荣威智联网汽车、海尔人工智能电视等,鄢志杰还把智能语音带到了公共空间。此前国内的语音交互主要是近场交互,场景局限于安静的室内。鄢志杰团队通过对语音交互硬件的麦克风阵列、还添加了摄像头来识别说话人,解决室外语音对话问题。目前,已经推出语音点餐机、上海语音地铁售票机等。与其他公司不同,阿里做智能语音交互+IoT的特点在于其丰富的商业场景。
翻译机
2018年NLP领域一个值得注意的趋势是:多款翻译机面市。此前,我们较为熟悉的是谷歌、百度、网易等在线翻译,而今年我们看到了很多做硬件的翻译机产品。翻译机的火爆主要有几点原因:首先,深度学习带来翻译水平的提升,能够更好地解决对话中翻译问题,而过去由于手机硬件限制,我们无法在移动设备上运行深度学习模型,翻译机成为外出刚需。此外,实时的语音转文字和文字转语音功能的成熟,也起到促进作用。
2017年3月,科大讯飞推出晓译翻译机,无屏、支持中英互译、离线互译、支持Wifi和SIM卡连接,价格高达2799元,随后2017年9月,科大讯飞推出“译呗”,无屏、不支持离线翻译,价格降低为1399元。2018年4月,科大讯飞推出晓译翻译机2.0,带触屏、摄像头、支持20种语言在线互译,中英离线翻译,价格为2999元。
2017年9月,分音塔科技推出准儿翻译机,支持31种语言互译,不支持离线翻译,售价1288元;2017年10月,网易提出有道翻译蛋,带触屏、支持27种语言在线翻译,不支持离线翻译,价格638元;2017年12月,百度发布途鸽翻译机,无屏、支持4种语言互译,定价2399元;2018年3月,搜狗推出旅行翻译宝,带触屏、摄像头;支持24种语言在线翻译,中英离线互译,售价1498元;2018年5月,小米生态链企业香蕉出行提出魔芋AI翻译机,无屏、支持14种语言、不支持离线翻译,售价249元。
可见,翻译机的功能和形态还处于探索阶段,有无屏幕、带不带摄像头、支持多少种语言、能否离线翻译都能影响其价格。其中,离线翻译对于硬件设备的要求很高,对成本的影响大。
我们知道,在线翻译可以使用云端机器翻译,而离线翻译能使用的机器学习就很有限,此前,在线翻译的效果远远优于离线翻译。想要获得好的离线翻译,自然需要在硬件和软件上下更大的功夫。
雷锋网了解到,2018年6月13日,谷歌发布离线神经机器翻译技术( Neural Machine Translation),使得离线状态下 ,也能用AI翻译,且支持59种语言。据了解,神经机器翻译(NMT)是机器翻译的一种方法,它使用大型人工神经网络来预测单词序列的可能性,通常在单个整合模型中对整个句子进行建模。这一技术,或许将会对翻译机造成一定的影响。
AI+教育
2017到2018年,AI+教育成为人工智能集体攻坚的传统领域。AI+教育不少的场景和产品都运用了NLP的技术,例如:中文分词、智能阅卷、知识图谱等。
以语音+语义技术为核心,结合云计算、大数据,科大讯飞在AI+教育上取得了不少成果,教育也成为科大讯飞重要的营收来源之一。据科大讯飞2018年上半年财报显示, 2018年上半年,教育板块的营收6.58亿元,同比增长16.35%。
科大讯飞在智慧教育领域,已经打造了包含智慧考试、智慧校园、智慧课堂、智慧教学、智慧管理在内的一体化智慧教育产品体系,在全国31个省、自治区、直辖市及新加坡等海外市场广泛应用,与13000余所学校建立合作,服务师生超过8000万。
其主要的场景有校园管理:建设校本资源库,构建优质资源实时更新、共建共享的生态圈,实现学校优质、特色教学资源的积累和共享;AIUI语义:集成语音识别、语义理解相关能力,结合后端信源,直接通过语音调用相关内容信息,达到天气预报、风险预警等信息及时播报;语义理解:通过语音处理,进行语义理解,了解用户意图,并通过云端知识库交互达到信息的及时传达;私有云更加定制化的信息确保答案更加精准有效;汉语水平等级考试:系统基于国家普通话水平测试大纲,可准确的对考生命题说话之外的所有测试题型进行自动评测。
在智能阅卷方面,2017年11月20日,新东方与科大讯飞联合成立的合资公司“东方讯飞”发布第一款基于AI的智能学习产品RealSkill,实现雅思、托福考生口语与写作的智能评分与批改。
雷锋网还注意到,除了英语之外,NLP技术在中文阅读领域也已经能商业化。2018年8月,中文少儿分级阅读平台“考拉阅读”宣布完成2000万美金B轮融资。此次融资将主要用于考拉阅读原创“中文分级阅读系统ER Framework”的优化升级、优质阅读内容的生产聚合及市场规模的扩大。
考拉阅读的中文分级阅读标准(ER Framework )借鉴了国外的“词、句”的分析思想,基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度,并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征,「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。文分级阅读系统 ER Framework,将中文文本按照难度进行量化分级,并匹配学生不同的阅读能力,进而提供个性化的阅读内容及语文学习解决方案。
AI创作
机器可以做很多理性的东西,那么它可以做一些创造性的东西吗?虽然人类对创造性的要求很高,梵高的画作、贝多芬的交响曲、李白杜甫的诗词,这些在人类历史长河中闪闪发光的文化遗产是人类创造性的体现。即使是对人工智能抱有长远期望的李开复,也并不认为AI能够具备创造性。
但是,微软却一直在坚持AI创作的尝试,在近两年取得了不少成果。
微软小冰除了对话能力外,还具备写诗、写歌词、作曲、演唱等能力,这些都是NLP技术的延伸。雷锋网曾报道,2018年5月,微软小冰宣布“演唱深度学习模型完成第四次重大升级,演唱水平接近人类,且开始向作词、作曲、演唱全面发展。其与知乎合作的新曲“我知我新”就是由小冰作词加演唱。
据介绍,第四次迭代版本有三大更新:首先,加入换气声自动合成能力,歌声与气息融合,听起来更自然更有感染力。其次,第四次迭代本在在深度学习建模中增加控制的方式,字与字、音符与音符之间的过渡更加连贯顺畅。最后,通过进一步优化的深度神经网络结构,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱风格,进一步脱离手工参数输入,自行完成演绎。
小冰作词与小冰创作诗歌相同的生成模型——基于LSTM的seq2seq模型,但是训练数据从诗歌换成了歌词,小冰利用深度神经网络学习超过1000万行的歌词语料,并在此基础上训练,再通过多感官诱发创作灵感,生成歌词。
AI创作需要更强的自然语言生成能力,目前大部分的对话式人工智能并不具备,很多回答的语句还是提前输入的,或者是通过搜索提取的。微软的自然语言生成能力也已经融入到了对话式人工智能中,在发布”全双工语音交互感官“技术时,微软小冰就已经具备”自然语言生成模型“,微软小冰的所有回复都是自己生成的,有别于传统的基于模块、搜索来进行回复。
微软重视AI创作,是希望AI能与人联合创造。AI进入内容生产领域,并不是要替代人类,而是成为人类的助手,不仅仅是在一般的领域,创作领域其实也是可以做到的。其实每个人都有创作的欲望,只不过有些人有艺术的天分,成为了画家、音乐人、作家,而有些人没有这样的能力。AI就可以帮助每个普通人,让他们都有创作一些个性化的内容的能力。
虽然写诗和唱歌还没有明显大规模商业化,但是另外小冰讲故事和小冰的文字摘要能力却已经大规模落地。小冰的儿童有声读物自动生成技术成果,已获得超过400万小时的收听量,小冰姐姐讲故事有声读物已经覆盖国内90%以上的儿童早教机器人和80%在线收听平台。
微软小冰将机器人写稿技术运用到金融领域,可以说是找到了一个更为刚需的场景。王永东介绍,在过去的248天里,小冰低调地采用化名与万得资讯和华尔街见闻进行了合作,对金融领域中全部26个类别的公告进行攻坚和测试,通过金融文本生成摘要,向金融机构、财经APP和个人投资者提供摘要服务。目前,小冰的文本生成技术已经覆盖国内约90%金融机构、75%经批准的合格境外投资机构和约40%的国内个人投资者。
在金融信息服务领域,速度意味着金钱,与人类相比,人工智能在这一点上优势明显。王永东介绍,微软小冰可以在企业公告发布的同时,用20秒左右的时间生成高质量的摘要。未来,小冰在金融领域会还会拓展产品线,提供更多的金融服务。
除了微软小冰之外,雷锋网还曾报道过IBM会辩论的机器人。Debater。2018年6月,IBM Research推出AI系统Project,在旧金山IBM办公室,人工智能在一场辩论赛中击败了人类顶尖辩手,它的对手是以色列国际辩论协会主席Dan Zafrir和2016年以色列国家辩论冠军Noa Ovadia。据IBM官方介绍,Project Debater是第一个可以在复杂话题上与人类辩论的AI系统。Project Debater通过处理大量文本,就特定主题构建出有良好结构的演讲,提供清晰明确的目的,并反驳其对手。最终,Project Debater将通过提供引人注目的,以证据为基础的论点并限制情感、偏见或模棱两可的影响来帮助人们推理。目前,Project Debater如何进行商业落地,还不得而知。
AI语音芯片火热
智能音箱、智能家居等硬件产品的火爆已经验证了智能语音交互与IoT结合的趋势,这个新的趋势也对芯片这样的底层硬件提出了全新的要求。此前,智能音箱中的AI推理和运算都是在云端完成,反应的速度较为缓慢,延迟明显。
云知声创始人/CEO 黄伟表示,“在 AIoT 市场加速爆发的今天,云端方案在网络、带宽、能耗、隐私以及边缘计算等方面的限制,使得面向物联网的 AI 芯片成为必然选择。”
5月16日,云知声在北京发布了首款面向物联网领域的AI系列芯片UniOne以及第一代芯片“雨燕”;5月24日,出门问问在北京发布了旗下首款AI语音芯片模组问芯Mobvoi A1;6月26日,Rokid在杭州发布了旗下AI语音专用SoC芯片KAMINO18;同一时间,思必驰CEO高始兴确认公司正在打造AI语音芯片,预计今年下半年流片;7月4日,深圳微纳感知计算技术有限公司(微纳感知)联合杭州中天微系统有限公司(中天微系统)宣布即将在今年下半年发布智能语音芯片,杭州中天微系统不久前被阿里巴巴全资收购。
这些AI语音芯片都有相似的目的,例如:为语音交互硬件提供跨设备形态的 AI 感知能力和本地推理能力;深度学习网络架构,提升运算能力;降低数据带宽要求等。
其实,AI语音芯片,NLP都是语音公司竖向发展的需求。近几年,以科大讯飞、云知声、思语音识别的公司发展很快,语音识别的发展也带动了自然语言处理相关的发展。然而现阶段,语音识别、语音合成、智能设备接入、智能设备唤醒等问题都已经基本解决,再过两三年或许就能彻底解决,“听见”的问题解决后,下一步自然就是“听懂”,在“听懂”的方面,自然语言处理技术任重而道远。
思必驰CEO高始兴曾告诉智东西,思必驰在创业之初,整个研究团队最早做的就是语音识别、人机对话,但2007年那个时间节点,移动互联网浪潮还没有兴起,更不要说AI应用了,没有需求则“技术无用武之地”。但随着物联网阶段到来,语音交互的需求开始爆发。“在技术创新上,思必驰核心会围绕人机对话来展开”,高始兴谈到,尽管现在思必驰的语音技术已经落地很多终端,效果也不错,但是整个人机交互体验还是不够的,还要下功夫提升用户体验。
巨头之下,创业机遇
NLP技术比CV技术更难,目前几乎都是大公司才有精力做NLP技术的研发,在算力、数据、人才上都是创业公司无法比拟的。但是,由于NLP包含众多研究内容:中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索、对话系统、文字校对、自动摘要等。这些技术都在逐步地商业化,但是因为各个领域所采用的数据、技术都有很大区别,并不会有一个统一的技术出现,每个领域都还有创业公司生存的空间。
手机智慧识屏
三角兽是一家典型的NLP创业公司,三角兽的三位创始人中,一位是度秘中控负责人王卓然,一位是微软小冰创始人之一亓超。自2016年三角兽成立起,公司就致力于基于自然语言处理技术,为各个领域打造人机交互解决方案。
三角兽目前已经完成B轮1.1亿人民币融资,主要致力于四项技术能力:语义理解、开放域聊天、多轮对话、跨域中控,落地智能客服、智能手机方案和智能硬件三大方向。
智能手机方案是三角兽较为独特的落地场景,据介绍,最新发布的OPPO R15和VIVO X21,以及今年一些品牌新机的“智慧识屏”功能,都由三角兽提供。该功能贯通系统层,覆盖包括微信、微博、各种app和短信,对手机任何一段文字进行语义解析,并推出数个卡片满足用户,一步到位解决用户获取信息和服务的需求。此前,三角兽还为罗永浩的锤子手机提供“Bigbang”功能,可以使大段文字——不管它们是以图像还是文字的方式存在,不管它们是中文还是英文——都可以被切割成语义相关的词或字,从而可以被更加方便地选择和编辑。
多模态情感识别
竹间智能成立于2016年,创始人简仁贤曾是微软亚洲工程院最高级别的负责人之一,其参与和向其汇报的项目包括了Bing亚洲地区的战略与合作伙伴关系,微软的虚拟助手小娜以及亚洲地区的商业变现业务。
竹间智能的核心业务是文本分析、自然语义理解、情感计算。竹间智能主要有两条产品线,一条是类脑对话机器人,包含了客服机器人、导购机器人、金融机器人、营销机器人、个人助理、品牌IP机器人等;一条是多模态情感识别系统,包括情绪识别分析系统、人脸表情识别系统、印象分析系统、广告效果分析系统、呼叫中心质检系统、课堂情绪分析系统等。
对话机器人的应用场景可以区分为C端和B端,C端直接服务于客户,对用户体验要求非常高,这个领域重要由巨头占领。服务于B端需要做得更为垂直,最多的是做客服、导购机器人,需要为垂直领域提供不同的解决方案。在这个领域我们也看到很多创业公司,例如:小i机器人、云问机器人、智能一点、助理来也等。这个领域已经不算是蓝海,NLP公司需要寻求更多的差异化。
竹间智能的多模态情感识别系统做到了差异化的竞争,其不止可以识别文字情感、语音情感还添加了视觉情感,将三者融合起来做多模态的情感识别。在竹间智能CTO翁嘉颀看来,人机交互分为三个层次,最底层是自然语言处理,第二层是意图理解,第三层是理解背后的涵义,目前业界还停留在前两个阶段,要做到第三个阶段,情感计算不可避免。目前,竹间智能的多模态情感识别也已经创新性地应用在了新零售场景。
企业知识传播
思必驰是国内领先的语音技术厂商,专注智能终端领域,为智能车载、智能家居、智能玩具/机器人、智能穿戴、智能手机等打造自然语言交互产品方案,目前已经接入上亿智能终端。今年7月思必弛宣布推出针对企业智能服务的定制平台——会话精灵(talkinggenie, http://ba.dui.ai),定位为企业知识传播,利用启发式对话技术和复杂结构知识管理技术为大众企业提供更流畅的知识和信息的沟通方式。
初敏谈到,思必驰现在的主战场是智能设备、IoT,都是围绕着人的生活中的各种娱乐、出行、会议,辅助人的日常生活。但是现阶段,智能语音设备的底层问题,如接入、唤醒、对话,都已经基本解决,未来两三年可能会彻底解决,那么智能语音设备厂家之间的差距就变小了。思必驰现在换了一种思路来思考智能语音设备的发展,在她看来现在需要的是更多的企业将自己的服务交付给智能语音设备,以后可能不会只有一个通用型的音箱,会有很多专用场景,在不同的场景解决不同的问题。
在对话式人工智能以及NLP领域,巨头拥有着多年的技术积累、平台优势,微软、百度都在开放对话式人工智能平台和技能,在这种情况下,创业公司再去做平台或者底层技术并不现实,需要结合多种NLP技术,需要差异化的场景和更为垂直的领域。
小结
2018年,计算机视觉赛道已经趋于平静,NLP赛道却十分热闹。NLP研究的内容领域众多,包括:中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统、机器翻译、自动摘要、文字蕴涵等等,每一个领域都很艰深,没有一个通用的技术能解决所有问题,其技术难度远大于计算机视觉。
畅想未来的NLP,我们会想到:能畅聊的对话机器人、精准的实时翻译、会阅读写作的AI。2018年,以上这些愿景都在一步步实现。雷锋网观察到,2018年,智能语音交互与IOT平台的结合、翻译机、AI教育、AI创作等领域是NLP技术的热门应用场景,巨头和大公司都在扎堆布局。同时,为了更深入布局,不少巨头和语音公司都开始做物联网/语音芯片。除此之外,NLP创业公司也在积极探索适合自己的垂直领域,例如三角兽的智慧手机识屏方案、竹间智能的多模态情感识别、思必驰的企业智慧服务。当然,这篇盘点文主要依靠雷锋网编辑这一年来行业报道所见,如有不全或者遗漏之处,欢迎告知。
除了这些细分领域的新进展之外,大公司的竞争格局也很有意思。可以看到,虽然微软、谷歌、百度等巨头在NLP上积累难以超越,不少公司也有望凭借后发之力向巨头发起挑战,比如凭借语音技术在教育、政务、医疗等各个领域遍地开花的科大讯飞;凭借搜索和输入法为核心,打造自然交互与知识计算的搜狗;依靠信息流、智能推荐、NLP技术对百度穷追猛赶的今日头条。在下一篇文章中,雷锋网编辑将会详细说说这些公司的在NLP领域的竞合,欢迎联系编辑提供观点和意见。
评论