对话程序主席黄萱菁:EMNLP从投稿到接收,我们是如何工作的
作者 | 琰琰编辑 | 青暮
近日EMNLP 2021在多米尼加共和国闭幕,今年EMNLP收到有效投稿3717篇,中国大陆投稿1137篇,接收207篇,接受率为18%。作为NLP四大顶会之一,EMNLP备受国内学者青睐,投稿量连续多年超过美国位居榜首。
EMNLP 由国际自然语言学会(ACL)下属的 SIGDAT 数据小组创办,在全球NLP顶会排行榜上位居第二,会议质量仅次于ACL。比较而言,ACL会议历史悠久,兼顾语言探索与经验方法,是综合质量最高的会议;EMNLP更聚焦NLP算法在各个领域解决方案的学术探讨,定位更加强调工程化,二者可谓互补。
随着AI顶会投稿量的持续增长,EMNLP的审稿质量和公平性问题成为学者们关心的话题。近日,AI科技评论对话EMNLP 2021程序主席黄萱菁教授,围绕EMNLP投稿趋势,审稿流程与标准、学生应该如何投稿”等话题与之进行了交流。
黄萱菁,现任复旦大学教授,主要研究自然语言处理、信息检索和社会媒体分析,在相关国际学术期刊和会议上发表论文130多篇,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。
在自然语言处理领域,黄萱菁已多次担任各大国内和国际学术会议担任重要职务,包括2014年ACM国际信息与知识管理会议竞赛主席,2015年ACM国际互联网搜索与数据挖掘会议共同组织者,2015年全国社会媒体处理大会程序委员会副主席,2016年、2019年全国计算语言学会议程序委员会副主席,2017年国际自然语言处理与中文计算会议程序委员会主席,2020年国际自然语言处理与中文计算会议大会主席,2021年EMNLP程序委员会主席;并长期在人工智能、自然语言处理和信息检索的各大国际学术会议担任程序委员会委员、资深委员和领域主席。
AI科技评论:EMNLP 2021的审稿流程是怎样的,您作为程序主席主要负责哪些工作?
实际上EMNLP 2020 结束后,2021年的筹备工作就已经开始了。整整一年下来工作量还是非常大的,尤其是Deadline和录用前后,是最忙的两个时间段。今年我们有三位共同程序主席,除了我之外,还有伦敦帝国理工学院的Lucia Specia教授,Facebook高级研究员Scott Yih。在前期准备工作上,第一项任务就是发布征稿通知,包括确定投稿领域、时间节点等具体事项。
在投稿领域上,我们的基本原则是领域范围要适中,具有多样性和新颖性。比如机器学习、自然语言处理应用近两年非常热门,投稿量很大,有些会议会拆分成预训练和分类两块小领域。另外,我们也会拓展一些小众的前沿领域,比如自然语言处理的伦理和效率,这些领域是需要鼓励的,我们希望引导学者做绿色NLP,做环境友好的NLP。
征稿通知发布后,开始邀请高级领域主席,确定EMNLP委员会结构。一般小领域会安排1位领域主席,大领域安排3-4位。先是从世界范围内评选出一批知名的NLP学者,然后综合性别平衡、区域平衡、学术与产业平衡等指标进行二次筛选,确保SAC人选的多样性。在区域平衡这里,我们覆盖了三大洲,包括美洲(北美、南美)、亚太(中国、澳大利亚、新西兰等地区)、欧洲和非洲。然后重新修订审稿规范和指南,这是初期准备阶段最重要的一项工作。
征稿流程启动后,从作者投稿、审稿人评审、author response、最终决策等整个流程我们都会介入。按照领域划分,我们三位程序主席,大概每人分管1000份论文左右(共提交3000+篇)。进入录用阶段后,AC和SAC会向我们提交综合评价和推荐意见。在这些评审结果中,我们会重点关注那些AC和SAC认为“可上可下”的论文,也就说,一篇论文是被顶会收录,还是进入Findings;是入选Findings,还是被拒,这个主要由我们来决定的。因为高级领域主席只关注特定领域,我们能从更全局视角,平衡所有论文的情况。
AI科技评论:EMNLP如何评选审稿人和保证审稿质量?您如何看待投稿量与审稿人不平衡的问题?
EMNLP 2021有将近4000名审稿人。我们先是参考ACL等其它顶会创建了一个9000人的审稿人池子,大概有4000多人接受了审稿邀请,然后高级领域主席根据其他客观指标做了一些增删处理,确定了最终的审稿人名单。
我们邀请的审稿人除了NLP领域知名的教授、学者,还有一些在读博士生和硕士生,当然他们都需要在顶会上至少发表3-4篇文章。今年整体评审下来,我们发现很多初次评审的博士生很活跃,审稿质量不比其他人差。
其实不仅是EMNLP,很多顶会都面临审稿人紧缺的问题。投稿量每年都在增加,如果不增加审稿人,现有审稿人的工作量和压力就会非常大,也会影响审稿的质量。所以在保证专业能力的基础上,扩大审稿人的评选范围是一个不错的选择。
今年EMNLP收到3000多篇有效论文,每篇论文会分配3-4名审稿人。我们会根据审稿人所在的高校、职位、论文发表数量等指标判定其资深程度,然后合理分配审稿人,基本可以保证每篇论文都有资深学者参与。
对于评审质量,领域主席会进行人工评估,推荐一批优秀的审稿人。我们也会采用自动化程序评判审稿质量,比如哪篇审稿意见过于简短,综合评价是否全面等等。另外,审稿人和领域主席也会评估论文是不是有潜在的伦理风险。有潜在风险并且作者在论文中没有给出伦理和影响力声明的论文会提交给专门的伦理委员会评审,今年接受伦理评审的论文大概有200多篇。
AI科技评论:EMNLP如何匹配审稿人与论文?对于社交媒体上存在的“审稿人不专业”的质疑,您怎么看?
过去很多会议的论文分配方式都是审稿人自己去竞标,这里面存在的一个问题就是,审稿人可能会出于兴趣选择论文,而不是自己的研究方向,这在一定程度上会影响评审质量。所以近几年我们取消了论文投标的方式,利用NLP技术去自动化匹配审稿人和论文。
凡是被邀请的审稿人已经发表了不少顶会文章,我们采用的NLP算法会搜集和分析这些文章的标题和摘要,并训练出一个语义表示模型,这样我们就可以了解审稿人擅长的研究方向。用这些特长再去和投稿论文的摘要做匹配,可以最大限度地避免“不匹配”的问题,提高审稿的公平性。
自动分配只是一个基础,领域主席和高级领域主席还会做进一步的调整,刚刚我们提到,一篇论文的审稿人不能全是资历浅的年轻人,为了兼顾比例平衡,他们会推荐一些资深学者,因为不同经验的审稿人看文章的角度是不一样的。这项工作之所以由领域主席来负责,是因为他们与审稿人是小同行,更能做出精准的调整。
另外,论文作者、审稿人以及领域主席对于高级领域主席来说都是公开的,所以他们也会检查这些人是否来自同一个大学或者存在合作关系,避免利益冲突的问题。总之,系统自动分配结合领域主席调整的方式分配论文,基本能够解决审稿人推荐不对口,不公平的问题。
AI科技评论:EMNLP是否存在“SOTA决定论”的现象,就是说只要论文没有超过现有研究的SOTA就会被拒掉,或者打低分。您如何看待这种性能指标对论文质量的影响?
我们之前在审稿规范上就有提出不能搞SOTA论,不能因为这项研究没有超过现有研究的性能就打低分。在这方面,我们首先定义投稿之前三个月内的文章属于同期工作,作者可能会不了解。另一方面,如果工作只收录在arxiv上,也不一定需要进行比较,因为它不属于同行评议的正式出版物。另外,对于那些结果不错,数据可靠,但方法又不是特别新颖的论文,我们从去年起设置了Findings类别。所以我们在这方面做了很多的工作,SOTA并不是一个特别强调的指标。
但存在的一个问题是,我们设计的审稿规范,不能保证审稿人能够严格按照规范去操作,这方面还需要去持续优化。
AI科技评论:今年字节跳动的一篇ICLR拒稿投了ACL,成了最佳论文,您如何看待这种“转投中稿”的现象?NLP领域四大顶级会议,学生应该如何选投,能否给出一些建议?
很多人知道NLP领域有四大顶会ACL、EMNLP、NAACL和COLING。ACL是公认综合质量最高的国际计算机语言学会,语言探索与经验方法兼容并收。COLING与ACL类似,是历史悠久的NLP学术会议,但不属于ACL协会旗下。NAACL偏重数据驱动方法,与EMNLP风格接近,更符合美国学者的口味。
早期整个人工智能,包括自然语言处理都不是很火热,ACL每年只有几百篇的投稿量。后来,基于规则的机器学习方法开始出现,自然语言处理领域才开始活跃起来。SIGDAT是ACL协会下设的一个语言学数据工作组,他们建议创建一个自然语言处理经验方法会议,也就是EMNLP。
EMNLP对经验方法的定义,包括模型设计和实现,语料库构建与标注,还有评价方法。所以定量实验和数据分析,做得多做得好,更容易受到EMNLP认可。我们今年评选的最佳长、短论文都与数据集有关。
虽然会议在定位和设计上各有特色,慢慢还是会出现一些同质化的倾向。因为除了COLING外,EMNLP、ACL和NAACL都是由ACL组织运作的,审稿人、SAC/AC、PC基本来自于同一个群体,各会议在审稿要求和规范方面也会相互参考和借鉴。所以学生在投稿的时候,不见得要紧盯一个会议,在DDL之前所有NLP相关会议都可以去尝试。对于初次投稿的学生来说,这个过程中收到的反馈和意见更重要,字节跳动“转投中稿”的事也印证了这个事情。另外,现在NLP的投稿量越来越多,有了idea和好结果再不投,可能就被别人抢先了。
AI科技评论:EMNLP被拒论普遍存在共性问题是什么?您认为真正好的论文应该具备哪些特质,能否给学生一些建议?
整体来看,EMNLP投稿论文的下限相比以前有所提高,因为提交格式不规范被拒的情况少了很多。现在存在比较重要的问题是:过于关注SOTA。很多作者觉得只要我的模型有好的结果,上传了coding,就可以发表了。但对于一篇真正好的论文来讲,模型性能只是一方面。我们更关注的是作者的研究动机,文章的论证逻辑,以及实验方法的新颖性。
作者要明确地提出科学问题和解决方法,在这之前,他们需要做好充分的文献调研,我们发现,很多作者提出的实验方法其实早就被验证过了,所以研究的创新性、新颖性是很关键的。我们还要看作者的逻辑表达,是否能把以往的工作梳理清楚,从分析、研究到验证的整个过程是否严谨,有理论支撑。另外,在实验环节,我们不仅看实验结果,更关注设计过程是否合理,实验结果是否充分可靠。
我经常跟自己组里的学生说,不要觉得科研论文是记叙文,写在叙事。既然是“论”文,就一定要以说理为主,要以理论和实验为依据,在有限的篇幅内把研究观点立起来。实验只是验证结论的一个手段,不能只关注SOTA,从发现问题到解决问题的逻辑演绎更为重要。
AI科技评论:EMNLP获奖论文是如何进行评选的,今年评选过程中是否有一些有趣的故事?
其实获奖论文评选工作在初级审稿阶段就已经开始了。审稿人、领域主席到高级领域主席都会在审稿表单中推荐最佳论文、,这些建议会提交给我们进行二次筛选,差不多筛选出一半后再提交给最佳论文评选委员会,由他们做最终的决定。
我印象比较深的是情感分析领域推荐的一篇论文,获得了今年的最佳短文。当时200多篇论文中,负责相关领域的SAC只推荐了这一篇,也没有推荐最佳长文。审稿人、领域主席和高级主席都认为这篇是最佳短文的候选。这项研究提出了一个幽默感知模型CHoRaL,用来检测Facebook上的消息贴是否幽默。他们收集了 78.5 万篇与 COVID-19 相关的帖子,通过从帖子中提取语义词汇和情感特征,分析社交媒体的幽默表达,还创建了带标签的大规模数据集。
看了这篇论文后,我们认为在深陷疫情漩涡的背景下,从“幽默”角度切入,提高语言理解能力的研究主题非常新颖,多少也有些苦中作乐的意味。因为今年疫情在全球范围内仍造成了不小的冲击,包括今年EMNLP会议采用的也是线上线下结合的方式,很多学者因为疫情无法到现场参会。
AI科技评论:Findings和ARR的实施效果如何?今年在审稿方面还做了哪些方面的改进?
每年EMNLP会议都会总结往年经验,做一些新的尝试和改进。比如去年EMNLP提出Findings类别,接收那些不足以被顶会录用,但实验方法有创新,实验结果好的论文。今年是引入ARR滚动审稿机制,让论文投稿和评审更及时高效。整体来看,Findings共接收了419篇高质量的论文,ARR投稿量截至10月份已经有上千篇,并且在明年的ACL、EMNLP等会议中广泛使用。
在审稿规范方面,我们今年重新修订了短论文的评审标准,以前很多作者抱怨短文的拒稿率太高,可能审稿人觉得研究方法不够新颖,实验不够透彻。今年我们要求短文不能采用长文的评选标准,短论文只要问题聚焦,验证了方法的有效性,即使是阶段性的贡献也是有价值的。
另外其他会议也有相应的改进,比如ACL-IJCNLP 2021开设了审稿人培训系统;NAACL 2021改善了伦理评审机制,不过这种改进都是渐进式的。
AI科技评论:您认为硕博生要在顶会发表论文,需要掌握哪些能力?
很多学生都希望在科研上做出一些有影响力的工作。做科研的第一步要学会发现问题。其实,博士与硕士在科研能力的培养和要求上有很大的不同,硕士阶段可能我们只需要阅读大量文献,在前人研究的基础上去探讨一些新问题,但博士生要独立地扩展一个新的研究领域,要自己去想idea。
其实很多时候,不是研究问题很难找,是我们缺少鉴别问题的能力,我经常告诉学生,读论文要学会“挑刺”,你不能顺着作者的逻辑,要换个角度尝试去反驳它,就像审稿人一样,要能够找出这篇论文的优缺点、有哪些改进的空间,这样才能在相对成熟的研究中发现新问题。另外,我们很多学生在硕博期间会去工业界实习,除了为将来职业规划做准备外,从实际的落地场景中也更容易挖掘一些感兴趣的问题。
AI科技评论:从进入NLP领域以来,您的研究方向经历了哪些变化,现在的主要研究方向和成果是什么?
我在读博的时候恰好赶上了NLP走向数据驱动的机器学习的过程,经历了从一开始的统计方法,到基于规则的方法,再到现在的深度学习。其实做科研就是这样,只要技术一直在更新,你就要一直去追热点方向。当然如果能够像Bengio, Hinton那样引领热点是最伟大的。我现在的研究方向主要与社会媒体有关,包括趋势分析、情感分析、可理解分析以及内容推荐。
除了社会媒体,我们也在做新闻方面的NLP,一开始做这个方向主要是兴趣,我自己就是深度网民,以前经常在BBS、天涯,新浪微博这些社区潜水。当然从科研角度来讲,社交媒体上有很好的数据资源,我们利用这些天然的数据训练语言模型,测试它在不同的领域的鲁棒性,在迁移学习方面有更多探索的空间。
另外,深度学习把我们从特征挖掘时代带到了结构工程时代,这个过程带来了很多新的问题,比如如何选择适配特殊任务特殊数据集的结构;可理解分析如何增加模型的可信赖性;如何更好地判断模型是否过拟合等。所以,可解释性也是我们目前研究的重点方向。
AI科技评论:您认为NLP发展经历了哪几个重要的阶段,当下的研究趋势和面临的瓶颈是什么?
1950 年艾伦·图灵在《计算机与智能》论文中提出机器翻译算法,第一次研究了自然语言的形态学、句法和语义问题。这项成果被看做是自然语言发展的源头。在这之后,如果回溯整个NLP发展历程,大概可以分为三阶段;第一个阶段是上个世纪,NLP在机器翻译领域经历了漫长的发展历程。第二阶段是本世纪初,基于规则和数据驱动的机器学习技术开始兴起,NLP进入蓬勃发展期;第三阶段就是现在以深度学习为主的NLP时代。
细分下来,目前整个NLP发展的热点趋势,可以总结为几个关键词:预训练,多模态,低资源、低功耗、可解释,科技向善。大火的GPT-3就是预训练模型,这项研究获得了NeurIPS 2020最佳论文,EMNLP-IJCNLP 2019 的最佳论文也与预训练有关。之所以成为学术热点,主要就是它在ImageNet等大规模数据集上达到了很高的性能水平。然后是可解释性,不仅是NLP领域,整个以深度学习为核心的人工智能都面临模型可解释的问题,如今AI开始大规模走向落地,有关可解释的研究也越来越紧迫。这些热点研究方向百花齐放,但现阶段都都存在一些难以逾越的瓶颈,比如预训练在工业界的落地开销太大,如何在医疗、金融等领域发挥实际价值,能否实现小样本学习等等。
AI科技评论:EMNLP从最早的兴趣小组成为了仅次于ACL的第二大NLP会议,投稿量也在逐年上涨,华人学者连续多年占据投稿量榜首,您认为EMNLP的崛起对NLP发展有哪些作用?
不止是EMNLP,我觉得各类NLP顶会对自然语言处理的发展起着重要的引领性作用。从EMNLP来说,我们会试图挖掘有价值的研究,引导学者形成正确的价值观,推动NLP的全面发展。比如通过开设自然语言处理效率、可解释性等小众领域,促进研究的多样性;通过制定各种规范和指南,影响审稿人和作者的价值判断;通过最佳论文评选,为研究者树立标杆。
另外,今年在会议安排上,我们邀请了MIT脑与认知科学系的Evelina Fedorenko教授,就大脑的语言系统做相关主题报告,他们的工作有助于推动NLP与多学科的交叉融合。同时我们还邀请澳大利亚查尔斯达尔文大学的Steven Bird教授,分享用NLP帮助新西兰土著居民的科研项目,传递科技向善的理念。所以从整个人工智能圈来讲,希望引导学者利用NLP技术去做一些真正提升社会价值的工作。
下一届EMNLP程序主席
AI科技评论了解到,EMNLP组委会已公布下一届会议的程序主席,其中,西湖大学张岳教授位列其中,这是自EMNLP成立以来第四位内地学者出现在大会程序委员会的行列。
作为国内早期从事自然语言处理研究的学者之一,张岳老师研究方向侧重自然语言的解析、生成和翻译、文本挖掘、机器学习,已发表相关国际期刊论文30余篇,CCF列表 A、B 类国际会议论文百余篇,获得过CCF2018中文计算与自然语言处理青年新锐奖、SemEval2020(honorable mention)COLING2018和IALP2017最佳论文奖等奖项。
盘点EMNLP历年的组委会成员,除了张岳和黄萱菁教授外,还有字节跳动李航博士、北京大学万小军等国内学者,以及新加坡管理大学Jing Jiang、德克萨斯大学Vincent Ng等多名华人学者出任EMNLP程序主席。
张岳老师入选EMNLP2022程序主席,意味着他本人及其团队的学术成就和地位得到了国际同行的认可,而越来越多的华人面孔出现国际会议的组委会行列,标志着我国计算语言学和自然语言处理研究领域在国际学术舞台拥有更多的话语权。
评论