月牙泉旁,NLPCC会议成功召开(图片来源于网络)
雷锋网AI科技评论按:十一长假后第一周,由中国计算机学会中文信息技术专委会举办的 NLPCC 及系列学术活动在敦煌古镇成功举办。
NLPCC从2011年开始举办,至今已成功举办 8 届;尽管举办时间很短,但成长却很迅速,在今年4月最新的CCF推荐国际学术会议和期刊目录中 NLPCC被评选为 C类会议,这说明其已经在NLP领域具备国际影响力,已然成为国内(甚至国际)中文 NLP领域最为重要的会议之一。
本次会议参会人数达610人,汇聚了众多国内外NLP领域的知名学者。
一、录取情况及研究趋势
NLPCC 2019正会开始于10月13日,在此之前与会师生已经经过了为期3天的前沿科学讲习班ADL 107期(这也是CCF长期举办的一个特色活动)以及1 整天的workshop。
在开幕式上,作为主办方之一,敦煌研究院副院长张先堂首先简单介绍了莫高窟的基本历史情况和研究情况。
随后大会联合主席 Ken Church发表了大会开幕致辞。Ken指出NLPCC虽然历史并不如敦煌那么悠久,但无论是在国内还是国外都具有重要的影响力。
联合PC Chair 靳民彦 & 唐杰来自新加坡国立大学的Min-Yen Kan(靳民彦)教授作为本届会议的联合程序主席,介绍了本届会议的基本情况。
雷锋网了解到,本届会议总投稿数是550篇,有效总投稿492篇;主会有效投稿451篇、workshop投稿41篇。
本届主会投稿数量相较去年增加了46%;其中英文投稿343篇(增长75%),中文投稿108篇(增长2%)。如此规模的投稿数量无论在国内还是国际上都屈指可数。
在451篇主会投稿中,接收长文(Full paper) 92篇,录用率为20.40%;接收短文(short paper)38篇,录用率8.4%。包括workshops投稿在内的NLPCC 2019投稿的长文录用率为20.93%;短文10.98%。从录取比例可以看出,NLPCC会议为保证会议质量,在文章录取上有非常严格的筛选过程,如下所示:
下图是从领域的角度来看论文录取情况,
从中可以看出哪些研究方向更为热门。有意思的是,在NLP应用等领域论文投稿论文数量非常多,而像机器翻译、知识图谱等却相对较少。对于论文投稿分析的高潮在于靳民彦教授根据关键词的分析。
从图中可以看出近段时间,国内NLP的研究趋势分别为:
1、Attention
2、data and copora
3、Embeddings and Representations
值得一提的是,除了主会论文外,另有workshop投稿50多篇,其中由西湖大学张岳教授和中科院自动化所张家俊研究员组织的student workshop接收了4篇论文,由北大孙薇薇副教授和微软段楠研究员组织的Evaluation workshop 接收了14篇论文,另外Explainable AI workshop接收了9篇论文。
二、讲了什么
本届会议分为前后两个阶段。
在NLPCC正会开始之前,从9日至11日在莫高窟研究院,由百度自然语言处理部首席科学家吴华、复旦大学张奇教授、北京大学万小军教授主持举办了为期三天的前沿科学讲习班ADL 107期。这也是CCF长期举办的一个特色活动,
京东AI研究院何晓冬博士
本次ADL共有6个报告,每个报告各半天。报告人分别为字节跳动AI实验室的周浩博士和李磊博士、微软亚洲研究院刘树杰研究员、伊利诺伊大学芝加哥分校的刘兵教授、京东AI研究院何晓冬博士、清华大学刘知远副教授、清华大学张敏副教授。详细的授课资料可关注「AI科技评论」微信公众号,并回复「NLPCC2019」下载。
随后 12日在敦煌华夏国际酒店中进行了为期 3 天的 NLPCC 会议。12日,分别进行了Evaluation Workshop、Student Workshop、Explainable AI workshop。其中哈工大车万翔教授的《What is the core competence of NLPer?》:
车万翔报告
中科院自动化所宗成庆研究员的《Distributed Representations and Neural Decoding》:
宗成庆报告
以及苏州大学张民教授的《Natural Language Processing and Sentiment Analysis》:
张民报告
给听众极大的启发。13日-14日,共进行了四场keynote演讲、四场工业演讲以及口头会议报告。
苏克毅Keynote演讲
作为首场报告,来自台北中央研究院信息科学研究院的苏克毅教授做了关于《 On Integrating Domain Knowledge into DNN》,在演讲中苏克毅教授指出了DNN存在的局限性,并针对给定任务提出了增强DNN的方法。
Mark Liberman Keynote演讲
宾夕法尼亚大学的Mark Liberman教授做了主题为《 Clinical Applications of Human Language Technology:Opportunities and Challenges》,介绍了利用NLP技术进行医疗数据挖掘的研究,以及一些非常具有启发性的初步结果,并讨论了未来研究的机遇和挑战。
夏飞 keynote 演讲
华盛顿大学的夏飞教授演讲的主题为《NN is great, but NLP is not equal to NN》。在演讲中,夏飞教授集中讨论了神经网络(NN)很少解决的两个问题:数据标注和专家知识的重要性,并用临床NLP为例进行了说明。她指出,仅靠神经网络并不能解决NLP的所有问题,因此对于NLP领域的研究者来讲,在顺应神经网络大潮的同时不应当放弃其他基础研究方向。
宋大为 keynote 演讲
来自北理工的宋大为教授的报告则更为新颖的角度,其主题为《A quantum cognitive perspective for informationaccess and retrieval》,即量子认知,借用量子力学的方法和语言来进行认知、信息获取等的研究。值得一提的是,宋大为以及天津大学的张鹏也是目前国内少数几位将量子力学与NLP结合起来研究的学者。
三、最佳论文奖
本届最佳论文奖共 3 篇,其中英文最佳论文奖 2 篇,中文最佳论文奖 1 篇。
1、Group-constrained Embedding of Multi-fold Relations in Knowledge Bases
这篇文章是华中科大的工作。主要讨论了知识库的表示学习问题。
摘要:知识库的表示学习旨在将实体和关系都嵌入到连续的向量空间中。大多数现有模型(例如TransE,DistMult,ANALOGY和ProjE)仅考虑知识库中涉及的二进制关系,而将多重关系转换为三元组并视为二元关系的实例,从而导致结构信息丢失。M-TransH是最近提出的用于多重关系直接建模的框架,但却忽略了某些事实属于同一关系的关系级信息。本文提出了一种组约束嵌入(Group-constrained Embedding)方法,该方法将实体节点和事实节点从实体空间嵌入到关系空间中,将与同一关系相关的嵌入事实节点限制为具有零约束、半径约束或余弦约束的组。这个方法提供了一个新模型,即Gm-TransH。我们在链接预测和实例分类任务上评估了我们的模型,实验结果表明,Gm-TransH明显优于以前的多重关系嵌入方法,并取得了出色的性能。
2、Fast and Accurate Bilingual Lexicon Induction via Matching Optimization
摘要:近期最优的进行双语词典归纳的方法一般是利用预训练词嵌入。然而,词嵌入会给常见词和稀有词带来噪音。尤其是在稀有词的情况下,由于其嵌入在训练数据中的出现率较低,因此其嵌入始终无法很好地学习。为了减轻上述问题,我们提出了BLIMO,这是一种简单而有效的自动词库归纳方法。它并没有引入词嵌入,而是将词典归纳问题转换为最大加权匹配问题,这可以通过贪婪搜索的匹配优化来有效解决。经验实验进一步证明,我们提出的方法在两个标准基准上大大优于最新的基准。
3、基于情感信息辅助的多模态情绪识别
摘要:近年来,多模态情感分析成为自然语言处理的热点研究领域,挖掘多模态内容(如视频和语音等)包含的情绪或情感信息具有十分重要的现实意义。基于多模态特征的情绪分类和情感分类作为情感分析的两个子任务,已有大量工作对两者进行单独研究,但是在多模态领域,还没有相关研究利用情感信息帮助识别说话人的情绪。不同于纯文本的情绪分析,本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征,我们提出一种新颖的联合学习框架,将多模态情绪分类作为主任务,多模态情感分类作为辅助任务,通过情感信息来辅助提升情绪识别任务的性能。具体而言,通过私有网络层对主任务中的文本和语音模态信息分别进行编码,以学习单个模态内部的情绪独立特征表示。接着,通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后,分别与主任务中的单模态独立特征表示进行结合,得到主任务中单模态情绪信息的完整表示。最后通过自注意力机制捕捉每个任务上的多模态交互特征,得到最终的多模态情绪表示和情感表示。实验结果表明,我们的方法在多模态情感分析数据集上可以通过情感辅助信息大幅度提升情绪分类任务的性能,同时情感分类任务的性能也得到了一定的提升。
四、杰出贡献奖、青年科学家奖
CCF NLPCC 杰出贡献奖和青年科学家奖是NLPCC的特色之一,从2017年开始颁发。
CCF NLPCC 杰出贡献奖是授予给对中国自然语言处理作出极大贡献的个人。本届杰出贡献奖授予给了中国NLP领域的泰斗人物东北大学姚天顺教授。姚教授出生于1934年,是中国NLP领域的第一位博士生导师,从1980年在东北大学创建东北大学自然语言处理实验室至今,培养了一大批知名学者,包括东北大学朱靖波教授、大连理工大学林鸿飞教授、中科院计算所程学旗研究员、李沐博士等,姚氏弟子遍布世界各地,可谓桃李满园。
专委会主任周明博士向姚天顺颁发奖牌和证书,朱靖波教授代领
(从左到右依次:周明、朱靖波、姚天顺)
姚天顺教授多年来秉持一个观点,即“人的一生很短,一辈子做成一件事就很了不起”,因此从80年代直至2005年退休,20多年一直坚持只做机器翻译。也正是由于他的这种精神,现在由朱靖波教授所带领的东北大学自然语言处理实验室已然成为国内外最强大的机器翻译研究团队之一,他们所开发的小牛翻译能够高质量完成140多种语言的翻译任务。
周国栋教授向冯洋、段楠颁发奖章(左二,段楠;左三,周国栋;左四,冯洋)
青年科学家奖每届两人。本届NLPCC 青年科学奖获得者分别为中科院计算所冯洋研究员和微软亚洲研究院段楠研究员。
冯洋发表获奖感言
冯洋研究员是中科院计算所自然语言处理课题组负责人,是当前NLP领军人物刘群教授的学生,在今年ACL上发表的《Bridgingthe Gap between Training and Inference for Neural Machine Translation》曾获2019年ACL最佳论文奖。目前研究领域为系统融合和低资源语言翻译。
段楠发表获奖感言
段楠研究员目前是微软亚洲研究院的首席研究经理(Principle Research Manager),是微软亚洲研究院副院长、2019年ACL主席周明博士的学生。段楠研究员曾先后在ACL、EMNLP、NAACL、COLING等顶级会议上发表论文50多篇,其开发的基于知识的QA/NLU和基于视频的QA/summarization曾获得Bill Gates的重视,许多研究工作都曾应用在微软的产品当中,例如小冰、Cortana等。目前研究领域为QA和自然语言理解。
五、换届及来年举办地
由于CCF 中文信息技术专委会每四年一换届,因此本年度也将成为该专委会的换届年,同时专委会也将更名为“自然语言处理及中文计算专委会”。
微软研究院常务副院长周明博士从2016年起担任专委会主任以来,在专委会秘书长赵东岩等人的支持下,短短数年将NLPCC会议提升到了一个新的高度,在今年年初成功进入CCF列表C类会议,为NLPCC会议作出了巨大的贡献。此外,在周明等人的牵头下,CCF 中文信息技术专委会与中国中文信息学会从2016年起联合举办了“语言与智能高峰论坛”,每年一次,已经成功举办了四届,这也迅速成为当前国内 NLP 领域最前沿思想交流与碰撞的一个大舞台。
上图从左向右依次为:刘群、宗成庆、赵铁军、周明、周国栋、赵东岩、吕雅娟、徐睿峰、黄萱菁、唐杰
据雷锋网了解,接棒周明和赵东岩,CCF 中文信息技术专委会下一届专委会主任是苏州大学周国栋教授,专委会秘书长是北京大学万小军教授。
周国栋教授在1989、1992、1997曾先后毕业于西安交通大学、上海交通大学和新加坡国立大学,随后一直在新加坡工作至2006年。随后在苏州大学的邀请下担任苏州大学特聘教授,仅用短短几年的时间便组建起了苏州大学自然语言团队。目前苏州大学自然语言团队在其带领下已经成为国内NLP领域的一个重镇。
万小军教授,是计算机汉字激光照排技术创始人王选院士和北大王选计算机所前任所长肖建国教授的学生。从1996年入学北大至今二十多年时间一直都在北大读书和工作。从2005年起,万小军教授便是国内能够在IR和NLP领域顶级会议和期刊上持续发表论文的学者之一。目前,万小军教授是国际范围内文本摘要领域最优秀的研究学者之一。万小军教授在2016年联合今日头条研发的写稿机器人xiaomingbot曾轰动一时。
去年经过专委会无记名投票决定NLPCC 2020在郑州举办,由郑州大学承办。此外,今年经过专委会投票,选择 NLPCC 2021 在山东青岛举办。欢迎大家参加NLPCC 2020,期待明年的胡辣汤。
【封面图片来源:网站名马蜂窝,所有者:无】