近日,国际音频、语音与信号处理会议ICASSP (International Conference on Acoustics, Speech, and Signal Processing)2022多通道多方会议转录挑战赛M2MeT(Multi-channel Multi-party Meeting Transcription Challenge)落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学合作,在说话人日志赛道获得第三名。同时,相关论文被ICASSP 2022收录,并受邀于今年5月在新加坡举办的线上/线下会议中展示。
ICASSP由IEEE(电气电子工程师学会)主办,在国际上享有盛誉并具有广泛的学术影响力,今年的会议主题为“以人为本的信号处理”。M2MeT挑战赛是ICASSP2022信号处理大挑战(Grand Challenge)之一,包括说话人日志和多说话人语音识别两个赛道。喜马拉雅和中国科学技术大学合作在说话人日志赛道取得了4.05%的日志错误率(DER),名列第三位。 第一、第二名分别由昆山杜克大学的李明教授团队(2.98%)和腾讯-香港中文大学团队(3.98%)获得。
说话人日志技术,主要解决“谁在什么时候说话”的问题。为了提高日志准确率,喜马拉雅和中国科学技术大学合作研发的系统,在语音的预处理上,首先使用麦克阵列技术对信号降噪、降混响,使得信号相对纯净,之后使用基于深度学习的声纹模型和谱聚类方法,将多人远场数据进行初步处理,并使用多通道标签融合技术对不同通道的结果进行融合,以提升准确率,成功将DER降到4.05%,基本达到实用要求。未来,技术团队还将不断创新突破,进一步打开对声音的想象,让技术加持声音、让声音服务生活。
作者:付鑫鑫
编辑:赵征南