如何高效系统学习语音识别技术？

作为智能语音领域的热点研究方向，说话人确认(Speaker Verification)旨在根据注册语音判断测试语音与其是否属于同一说话人的一项技术。近年来，基于深度神经网络的说话人确认技术在可控场景下取得了卓越的性能。但是在实际应用场景中，外在不可控的环境噪声、人与设备交互距离所产生的远场语音衰减、房间混响混响以及近场注册与远场验证的域不匹配（domain mismatch）等问题都会导致说话人确认系统性能的大幅度下降。在智能家居等应用场景下，用户通常通过近场设备（如手机）进行声纹注册，实际使用时可能通过手机（近讲）或者智能音箱和电视（远讲）进行声纹确认，这就会导致注册语音和测试语音的域不匹配问题。如何让说话人确认系统能够更好处理这种在远场说话人确认中域不匹配问题，一直以来都是非常重要的研究课题。

西工大音频语音与语言处理研究组（ASLP@NPU）近年来致力于基于深度学习的稳健性说话人识别研究。去年针对上述远场声纹场景下域不匹配问题 [1]，我们探究了传统多通道信号处理、数据增广等方法在提升说话人确认系统的稳健性的重要作用，并以此获得了Interspeech2020远场声纹挑战赛（FFSVC）分布式阵列赛道（任务3）第二名的优异成绩[2]。

如何高效系统学习语音识别技术？

图1 实验室参加FFSVC2020竞赛获得任务3的第二名

近期，实验室针对远场声纹的域不匹配问题开展了更为深入的研究。由实验室与新加坡国立大学（NUS）、新加坡资讯通讯研究院（I2R）合作提出了使用多层级迁移学习的方案来改善注册语音和测试语音的域不匹配问题，相关论文" Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification" 被语音研究顶级会议INTERSPEECH2021接收[3]。在这项工作中，我们基于教师-学生（teacher-student）框架，采用瓶颈层特征级和实例级知识迁移来学习领域不变的说话人嵌入空间。在FFSVC2020 评估集上，该模型取得的结果超越了当年竞赛最佳成绩。现对该论文进行简要的解读和分享。

● 论文题目：Multi-Level Transfer Learning from Near-Field to Far-Field Speaker Verification

● 作者列表：Li Zhang, Qing Wang, Kong Aik Lee, Lei Xie, Haizhou Li

● 论文原文：https://arxiv.org/pdf/2106.09320.pdf

如何高效系统学习语音识别技术？

图2 发表论文截图

背景动机

在远场说话人确认中，用户注册语音和测试语音的录音条件不匹配（如拾音距离不同）时，说话人嵌入（speaker embedding）的性能会明显下降。针对这种域不匹配问题，最重要的目标是使来自不同域的说话人嵌入的分布尽可能接近。当近讲语音相对比较干净且与远讲语音成对存在时，可以通过将近讲语音的性能迁移到远讲语音的识别中，监督远讲语音获取鲁棒性强的说话人嵌入。教师-学生（T/S）模型框架在这类成对的样本中进行知识迁移是一个潜在的解决方案。FFSVC2020竞赛数据提供了用于说话人嵌入模型训练的近讲-远讲成对数据[1]，为开展这方面的研究提供了便利。

当前的基于T/S模型的域自适应主要关注分类准确率的引导和特征级上的说话人嵌入的距离的拉近，但是忽略了不同类之间说话人嵌入的拉远。我们知道，拉大不同类之间的距离同等重要。同时，当前方案也没有关注学生模型对于已训好的教师模型所形成的样本对之间分布的学习，即忽略了实例级别的域迁移。对于说话人确认任务，核心优化目标是类内间距越来越近，类间间距越来越大。在T/S 框架下，为了保证学生模型拥有教师模型说话人嵌入的可靠性，特征级映射和实例级的类间距分布的一致性都很重要。

为此，本文在T/S框架下，提出了一种多级层的近场到远场的迁移方案，来解决远场说话人确认中注册语音与测试语音的域不匹配问题。对于特征级的知识迁移，我们改进对比损失（contrastive loss）来将知识从教师模型转移到学生模型，这不仅可以减少类内距离，还可以扩大类间距离。此外，我们提出了实例级成对距离迁移方法，以强制学生模型保留与教师模型优化好的嵌入空间的成对实例距离。实验结果表明该方法在存在注册语音和测试语音域不匹配时，能更好的学习到一个域不变的说话人嵌入空间。

提出的方案

我们提出的方法的概述如图4所示，由四部分组成，分别是教师模型、学生模型、特征级迁移学习和实例级迁移学习。特征级和实例级迁移学习部分在嵌入层上运行。特征级迁移学习旨在增加类间距离以及减少类内距离。实例级迁移学习将从教师模型中提取的“锚”说话人嵌入与学生模型提取的说话人嵌入进行比较，其包含具有相同说话人标签的正样本说话人嵌入和具有不同说话人标签的负样本说话人嵌入。图4右侧，TES和SES分别是教师嵌入空间和学生嵌入空间的缩写。

如何高效系统学习语音识别技术？

图4 基于T/S框架的多级迁移学习

特征级别知识迁移

我们采用对比损失以将知识从教师模型转移到学生模型。在本文的任务中，这种对比损失的“锚点”是从训练有素的教师模型中提取的说话人嵌入。正负说话人嵌入是从学生模型中提取的。由于任务是有监督的，因此可以根据样本的标签计算教师和学生的对比损失，如公式（1）所示。

如何高效系统学习语音识别技术？

该公式以从已经训练好的教师模型中提取的说话人嵌入作为“锚”，从两个方面优化学生模型的说话人嵌入空间。一方面减少了与同类说话人嵌入的距离，另一方面增大了来自不同类说话人嵌入的距离。通过这种方式，用教师模型的说话人嵌入监督学生模型说话人嵌入的学习。

说话人实例级别知识迁移

为了实现学生模型和教师模型的说话人嵌入空间具有相同的分布，我们同时采用实例级别知识迁移。首先用已训好的教师模型生成两两说话人嵌入之间的相似度矩阵，同时计算学生空间的说话人嵌入两两之间的相似度矩阵，如公式（2）和（3）所示。

如何高效系统学习语音识别技术？

接着用最小均值误差（MSE）损失减少教师说话人嵌入空间和学生说话人嵌入空间的相似度矩阵之间的距离，如公式（4）所示，从而确保学生模型学习的说话人空间能够和教师模型的说话人空间中实例样本对之间距离的分布一样。

如何高效系统学习语音识别技术？

这种方法可以惩罚教师模型和学生模型的成对相似度矩阵的差异，以便我们可以优化学生模型的嵌入空间，使其更接近教师模型的嵌入空间。

实验验证

实验配置

训练集包括两大部分：Openslr网站（https://openslr.org/）公开数据集SLR33， SLR38， SLR47， SLR49， SLR62， SLR82， SLR85；FFSVC2020 训练集。实验结果在FFSVC2020提供的开发集（dev）和评估集（eval）上进行展示。T/S 模型结构为Thin ResNet34-SE[4]。

实验结果

我们在 FFSVC2020 挑战赛的数据集上证明了方法的有效性，实验结果总结于表1和表2。在所有任务的开发集上，与其他相对比的迁移学习方法相比，我们的方法取得更为卓越的性能。表1底部三行是消融实验。实验结果表明，特征级知识迁移和实例级知识迁移都是有效的，二者相比与基线都有不同程度的提升。当二者相互结合时，性能提升更为明显。

表 1 FFSVC2020 任务1开发集上的结果

如何高效系统学习语音识别技术？

表2 FFSVC2020 任务2和任务3开发集上的结果

如何高效系统学习语音识别技术？

与任务2的部分评估实验的融合系统结果相比，我们在完整评估实验上的 EER 相对降低了 13.9%。在任务1 上，与竞赛第一名在 Partial-eval 实验上的 DenseNet 结果相比，我们在 Full-eval 实验上的 minDCF 相对减少了 6.3%。在任务3上，本文方法在 Full-eval 实验上的 EER 和 minDCF 与 Partial-eval 实验融合系统的结果非常接近。

表3 FFSVC2020 任务1、2、3评估集上的结果

如何高效系统学习语音识别技术？

说话人嵌入分布的可视化

我们从评估中随机选择 35 位说话人进行进一步分析。每个说话人选500 说话人嵌入使用 t-SNE可视化其分布。图5中上面的三张图是不采用本文提出方案所画出的说话人嵌入分布，可以观察到可视化嵌入空间更加混乱，其中红色圆圈线标记了说话人混淆的情况。图5下面三张图显示了使用提出的多级迁移学习方法的说话人嵌入分布，很明显可以看出，不同说话人的嵌入分布边界更加清晰，尤其是在任务2上更为明显。

如何高效系统学习语音识别技术？

图5 说话人嵌入分布的可视化(t-SNE)

结论

本文的主要贡献是解决远场说话人验证中的不匹配问题，基于师生（T/S）学习框架，利用特征级和实例级的多级迁移学习方法，构建域不变的说话人嵌入空间。在 FFSVC2020 开发集上，与基线方法相比，本文方法的 EER 在任务1、2 和 3 他们分别相对降低了 22.8%、38.6%、32.8%。在 FFSVC 2020 评估集上，我们在 Full-eval 实验上的结果甚至优于竞赛冠军在任务2 的 Partial-eval 实验中发布的融合系统结果。这些实验结果证明了本文提出的多级迁移学习是解决远场声纹应用中域不匹配问题的有效方案。

如何高效系统学习语音识别技术？