EMNLP 2018｜腾讯AI Lab解读16篇入选论文

EMNLP 是自然语言处理领域的顶级会议，它的全称是 Conference on Empirical Methods in Natural Language Processing（自然语言处理中的经验方法会议），由国际语言学会（ACL）的 SIGDAT 小组主办，今年 10 月 31 日-11 月 4 日将在比利时布鲁塞尔举行。

今年是腾讯 AI Lab 第 2 次参加 EMNLP，共有 16 篇文章入选，涵盖语言理解、语言生成、机器翻译等多个研究主题。以下为摘要解读。

此外，在今年的多个顶级学术会议中，腾讯 AI Lab 也入选多篇论文，位居国内企业前列，包括机器学习领域顶会 NIPS（20 篇）和 ICML（16 篇）、计算机视觉领域顶会 CVPR（21 篇）和 ECCV（19 篇），以及语音领域顶会 Interspeech（8 篇）等。

1. QuaSE: 量化指导下的序列编辑

QuaSE: Sequence Editing under Quantifiable Guidance

论文地址：https://arxiv.org/abs/1804.07007

本文由腾讯 AI Lab 主导，与香港中文大学合作完成。本文提出了量化指导下的序列编辑（QuaSE）的任务：编辑输入序列以生成满足用于定量序列某种特定属性的数值的输出序列，同时保持输入序列的主要内容。例如，输入序列可以是字的序列，例如评论句子和广告文本。对于评论句子，数值可以是打分; 对于广告，数值可以是点击率。QuaSE 的一个主要挑战是如何感知与数值相关的措辞，并仅编辑它们以改变结果。在本文中，所提出的框架包含两个潜在因子，即结果因子和内容因子，为输入句子提供方便的编辑以改变数值结果并保留内容。本文的框架通过对其内容相似性和结果差异进行建模来探索利用伪平行句对，以便更好地解耦潜在因子，从而允许生成更好地满足期望数值结果并保持内容的输出。对偶重构结构通过利用伪平行句对的潜在因子的耦合关系，进一步增强了生成满足预期的输出的能力。为了评估，研究人员准备了 Yelp 评论句子的数据集，用打分作为数值结果。本文报告和深入讨论了实验结果，以阐述框架的特点。

2. 利用深层表示进行神经机器翻译

Exploiting Deep Representations for Neural Machine Translation

本文由腾讯 AI Lab 主导，与南京大学合作完成。神经机器翻译系统通常由多层编码器和解码器构成，这允许系统对于复杂函数进行建模并捕获复杂的语言结构。然而，通常情况下，翻译过程仅利用了编码器和解码器的顶层，这错过了利用在其他层中的有用信息的机会。在这项工作中，研究人员提出用层聚合和多层注意机制的方法同时暴露和传输所有这些信号。此外，本文引入辅助的正则化以鼓励不同的层捕获不同的信息。研究人员在广泛使用的 WMT14 英语到德语和 WMT17 中文到英语翻译数据进行实验，实验结果证明了方法的有效性和普遍性。

3. 自注意力神经网络模型的局部性建模

Modeling Localness for Self-Attention Networks

本文由腾讯 AI Lab 主导，与澳门大学合作完成。自注意力模型可以直接注意所有输入元素，在很多任务中被证明具有捕获全局依赖的能力。然而，这种依赖信息的捕获是通过加权求和操作完成的，这可能会导致其忽视相邻元素间的关系。本文为自注意力网络建立局部性模型，以增强其学习局部上下文的能力。具体而言，我们将局部模型设计为一种可学习的高斯偏差，这种高斯偏差表示了所强化的局部范围。随后，所得到的高斯偏差被用于修正原始注意力分布以得到局部强化的权重分布。此外，我们发现在多层自注意网络中，较低层趋向于关注于尺寸较小的局部范围，而较高层则更注重全局信息的捕获。因此，为了保持原模型捕获长距离依赖能力的同时强化其对局部信息的建模, 本文仅将局部性建模应用于较低层的自注意力网络中。在汉英和英德翻译任务的定量和定性分析证明了所提出方法的有效性和适用性。

4. 用于短文本分类的主题记忆网络

Topic Memory Networks for Short Text Classification

本文由腾讯 AI Lab 主导，与香港中文大学合作完成。许多分类模型在短文本分类上性能欠佳，其主要原因是短文本所产生的数据稀疏性问题。为了解决这一问题，本文提出了一种新颖的主题记忆机制用于编码那些对分类有用的主题表示，以提升短文本分类的性能。前人的工作主要专注于用额外的知识扩充文本特征或者利用已经训练好的主题模型，不同于过去的工作，本文的模型能够在记忆网络框架下通过端到端的方式同时学习主题表示和文本分类。四个基准数据集上的实验结果证明了本文的模型不仅在短文本分类上的性能超过了之前最先进的模型，同时也能够产生有意义的主题。

5. 一种用于自动构造中文错字检查语料的混合方法

A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

本文由腾讯 AI Lab 主导，与清华大学和腾讯 SNG 合作完成。中文错字的自动检查是一个富有挑战又十分有意义的任务，该任务不仅用于许多自然语言处理应用的预处理阶段，而且可以极大促进人们的日常读写。数据驱动的方法在中文错字检查十分有效，然而却面临着标注数据缺乏的挑战。这个工作提出了一种自动构造用于拼写检查数据集的方法，分别通过基于 OCR 和 SR 的方法构造视觉上和听觉上相似的字来模拟错字。利用本文提出的方法，研究人员构造了一个大规模的数据集用于训练不同的错字自动检查模型，在三个标准的测试集上的实验结果证明了本文自动构造数据集方法的合理性和有效性。

6. 基于对抗条件变分自编码器的中文诗歌生成

Generating Classical Chinese Poems via Conditional Variational Autoencoder and Adversarial Training

本文为腾讯犀牛鸟合作项目，与北京大学合作完成。计算机自动创作表达流畅、文字优美的诗歌是一个难题。虽然之前的相关研究已经取得了引人注目的成果，自动生成的诗歌依然和诗人创作的有很大差距，尤其是主旨一致性和用词的新颖性。在本文中，研究人员提出结合条件变分自编码器和对抗训练的策略来生成诗歌。实验结果表明，不管是自动指标还是人工测评，本文的模型都有显著的提高。

7. 面向摘要生成的交互文档表表征学习及润色

Iterative Document Representation Learning Towards Summarization with Polishing

本文为腾讯犀牛鸟合作项目，与北京大学合作完成。通过观察人类生成摘要时对文档阅读及理解多遍的事实，文本提出了基于交互式文本摘要技术的抽取式摘要生成模型。考虑到当前摘要生成技术局限于对待生成摘要文本只处理一遍，多数文本表达无法得到全局最优的结果。针对这种情况，本文提出的方法能够持续选择，更新相应文本及优化相应的文本表征。在 CNN/DailyMail 和 DUC2002 数据及上的实验结果证明，本文提出的方法在自动及人工评测方面均超越了以往最好的模型。

8. 面向回复生成的变分自回归解码器

Variational Autoregressive Decoder for Neural Response Generation

本文由腾讯 AI Lab 参与，与哈尔滨工业大学合作完成。由于结合了概率图模型与神经网络的优点，条件变分自编码机（Conditional Variational Auto-encoder (CVAE)）在诸多自然语言处理应用例如开放域对话回复上，表现出了优秀的性能。然而，传统 CVAE 模型通常从单一的潜在变量中生成对话回复，这一模型很难对回复中的多样性进行准确建模。为了解决这一问题，本文提出了一种将序列化的潜在变量引入对话生成过程中的模型。在此模型中，研究人员使用一个后向循环神经网络（Recurrent Neural Network，RNN）扩展近似后验概率分布，其中后向循环神经网络使得本文的模型能更好捕捉文本生成过程中的长距离依赖问题。为了更好训练本文提出模型，研究人员在训练过程中加入了预测后续文本词袋（bag-of-words）的辅助目标。在 OpenSubtitle 和 Reddit 对话生成数据集的实验上表明本文提出的模型可以显著提升生成回复的相关性与多样性。

9. 具有差异性约束的多头注意力机制

Multi-Head Attention with Disagreement Regularization

本文由腾讯 AI Lab 主导，与香港中文大学和澳门大学合作完成。多头注意力机制因其能在不同子空间学习不同表征的能力受到研究者欢迎。在这个工作中，本文引入一种差异性约束来显式地鼓励多个注意力头的多样性。具体地，本文提出了 3 种差异性约束，分别鼓励每个注意力头在输入子空间、注意力对齐矩阵、输出表示上跟其他的注意力头不一样。研究人员在广泛使用的 WMT14 英语到德语和 WMT17 中文到英语翻译数据进行实验，实验结果证明了方法的有效性和普遍性。

10. 一种基于共享重构机制的缺略代词还原与神经网络机器翻译联合学习方法

Learning to Jointly Translate and Predict Dropped Pronouns with a Shared Reconstruction Mechanism

论文地址: https://arxiv.org/abs/1810.06195

本文由腾讯 AI Lab 主导，与都柏林城市大学合作完成。在代词缺略语言（如，汉语）中，代词常常会被省略，但是这给机器翻译结果的完整性带来了极大挑战。最近 Wang et al. (2018) (Translating Pro-Drop Languages with Reconstruction Models) 的工作提出了利用重构机制来缓解神经网络机器翻译中的缺略代词问题。本文从两个方面进一步加强了原有的重构模型。首先，本文提出了共享式重构器来充分利用编码器和解码器端的表示。第二，为了避免额外的缺略代词标注系统的错误传递，本文利用联合学习方法提出了缺略代词预测和翻译的端到端模型。

11. 一种减少神经网络对话模型生成通用回复的统计重加权方法

Towards Less Generic Responses in Neural Conversation Models: A Statistical Re-weighting Method

本文由腾讯 AI Lab 主导，与苏州大学和武汉大学合作完成。序列到序列（Seq2Seq）的神经网络生成模型已经在短文的对话生成任务中取得了不错表现。但是，这些生成模型往往容易生成通用、乏味的回复，非常影响对话的体验。研究人员观察到在对话任务中，每个输入语句都有可能对应着多个合理回复，即表现为 1 对 n（或者以整个语料集的角度看是 m 对 n）的形式。这种情形下，使用标准的 Seq2Seq 的目标函数，模型参数容易通过损失代价被通用（高频）的句子样式主导。受此启发，本文提出一种基于统计重加权的方法赋予输入语句对应的多个可接受回复不同的权值，并使用经典的神经网络生成模型进行训练。在一份大型的中文对话语料集上的实验结果表明，本文提出的方法在提高模型生成回复的接受率的同时，明显地减少了通用回复的数量。

12. 将数学问题翻译为表达式树

Translating a MathWord Problem to a Expression Tree

本文由腾讯 AI Lab 主导，与电子科技大学和香港中文大学合作完成。序列到序列模型已经成功的在自动解数学题方向取得了较大成功。然而，这种方法虽然十分的简单有效，却仍然存在一个缺点：一个数学问题可以被多个方程正确的解出。这种非确定性的映射关系损害了最大似然估计的性能。本文利用表达式树的唯一性提出了一种公式归一化的方法。此外，本文还分析了三种目前最流行的序列到序列模型在自动解数学题任务上的性能。研究人员发现每个模型都有自己的优点和缺点，因此本文进一步提出了一个集成模型来结合他们的优点。在数据集 Math23K 上的实表明使用公式归一化的的集成模型明显优于以往最先进的方法。

13. 循环神经网络语言模型下 n-gram 的边际概率估计

Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models

本文为腾讯 AI Lab 犀牛鸟 Gift Fund 项目，与美国西北大学合作完成。循环神经网络语言模型（RNNLMs）是当前统计语言建模的主流方法。然而，RNNLMs 只能对完整的文本序列进行概率计算。在一些实际应用当中，往往需要计算上下文无关的（context-independent）短语的概率。本文中，研究人员探索了如何计算 RNNLMs 的边际概率：在前文（preceding context）缺失的情况下，模型如何计算一个短文本的概率。本文提出了一种改变 RNNLM 训练的方法，使得模型能够更加精确地计算边际概率。实验结果表明，本文的技术优于基线系统，如传统的 RNNLM 以及重要度采样法。本文还给出了如何利用边际概率改善 RNNLM 的方法，即在训练中使边际概率接近于一个大数据集中 n-gram 的概率。

14. 基于混合注意力机制的在线论辩赞成/反对关系识别

Hybrid Neural Attention for Agreement/Disagreement Inference in Online Debates

本文由腾讯 AI Lab 参与，与哈尔滨工业大学合作完成。推断辩论尤其是在线辩论文本间的赞成/反对关系是论辩挖掘的基本任务之一。赞成/反对的表达通常依赖于文本中的议论性表达以及辩论参与者之间的互动，而以往的工作通常缺乏联合建模这两个因素的能力。为了解决这一问题，本文提出了一种基于神经网络的混合注意力机制，其结合了自我注意力机制以及交叉注意力机制，分别通过上下文语境和用户间的交互信息来定位文本中的重要部分。在三个在线辩论数据集上的实验结果表明，本文提出的模型优于现有的最优模型。

15. XL-NBT: 一种跨语言神经网络置信跟踪框架

XL-NBT: A Cross-Lingual Neural Belief Tracking Framework

论文地址：https://arxiv.org/pdf/1808.06244.pdf

本文为腾讯 AI Lab 犀牛鸟 Gift Fund 项目，与美国俄亥俄州立大学和加州大学圣塔芭芭拉分校合作完成。实现跨语种对话系统在实际应用（如自动客服）中具有重要的实际意义。现有方法实现多语种支持通常需要对每一个语言单独标注。为了避免大量的标注成本，作为实现多语种通用对话系统这一终极目标的第一步，本文研究一个完全不需要新语种标注的跨语种的神经网络置信跟踪框架。具体来讲，本文假设源语言（例如英语）存在一个已经训练好的置信跟踪器，而目标语言（如德语或者意大利语）不存在相应的用于训练跟踪器的标注数据。本文采用源语言的跟踪器作为教师网络，而目标语言的跟踪器作为学生网络，同时对置信跟踪器进行结构解耦并借助外部的一些平行语料来帮助实现迁移学习。本文具体讨论了两种不同类型的平行语料，得到两种不同类型的迁移学习策略。实验中研究人员用英语作为源语言，用德语和意大利语分别作为目标语言，实验结果验证了本文提出方法的有效性。

16. 自然语言视频时域定位

Temporally Grounding Natural Sentence in Video

本文由腾讯 AI Lab 主导，与新加坡国立大学合作完成。本文介绍一种有效且高效的方法，可以在长的未修剪的视频序列中定位自然语句表达的相应的视频内容。具体而言，本文提出了一种新颖的 Temporal GroundNet（TGN），用于捕获视频和句子之间不断演变的细粒度视频帧与单词之间的交互信息。TGN 基于所挖掘的视频帧与单词之间的交互信息地对每帧的一组候选者进行评分，并最终定位对应于该句子的视频片段。与以滑动窗口方式分别处理重叠段的传统方法不同，TGN 考虑了历史信息并在单次处理视频后生成最终的定位结果。研究人员在三个公共数据集上广泛评估本文提出的 TGN。实验证明 TGN 显著的提高了现有技术的性能。本文通过相应对比试验和速度测试进一步显示 TGN 的有效性和高效率。