Kaldi之父与ASAPP共同推出!更精准的声学模型来了!
本文是Daniel Povey在加入小米后发布的第一篇论文,介绍了一种新型的声学模型网络结构Multistream CNN。
论文链接:
简述
Kaldi之父Daniel Povey近期在其个人网站上放出了一篇与人工智能公司ASAPP合作的论文,这也是Daniel Povey在加入小米后发布的第一篇论文,这篇论文提出了一个新型的声学模型网络结构Multistream CNN,为了实现在时间分辨率上的多样性,模型采用了多条分支,并且将空洞卷积应用到TDNN-F(1D-CNN变种)。在并行处理输入语音帧时,每一个分支都会堆叠较窄的TDNN-F层,其内核具有唯一的流特定的膨胀率。 相对于TDNN-F模型,Multistream CNN在Librispeech语料库中的错词率(WER)指标相对改善了12%,实时因子(RTF)也优化了15%。
要点概览
Multistream ASR一直都被用于提高声学模型鲁棒性,这样做也是基于人类对语音的感知,因为当声音信号进去人耳后,它会被分成几个频带,这几个频带所携带的信息之后会在人脑中并行的处理。本文提出的Multistream ASR里的DNN结构是,几个编码器并行处理嵌入向量,将多种时间分辨率融合到了多个分支里,从而提高声学模型的鲁棒性。它的主要特点如下:
- 从多流自注意力模型得到灵感,但是此模型中没有多头自注意力层;
- 每一个分支里的TDNN-F层的扩张率是从采样率的倍数中选择的;
- 利用了数据扩充方法SpecAugment。
正文
Multistream CNN结构
如下图所示就是Multistream CNN的主要结构:
语音经过一个由多层CNN(可以是TDNN-F或者2D-CNN)组成的分支后分成多个分支,之后的每个分支也由多层TDNN-F组成,其中每个分支都有自己的扩张率。假设在时间 i ,从图中“singlestream TDNN-F”模块出来的嵌入向量为 x_{i} ,分支 m 的扩张率为 r_{m} ,那么从分支 m 出来的输出向量 y_{i}^{m} 为:
从多个分支输出的嵌入向量进行串联,会再通过ReLu,批处理规范化和退出层,最后会通过网络末端的几层全连接映射到最后的输出层:
Multistream CNN共有23层TDNN-F,Singlestream模块有5层TDNN-F,用来处理MFCC特征。后面的Multistream中有17层TDNN-F。为了控制模型参数量在20M之内,如果增大分支数量,那么就会相应地减小嵌入大小。后面实验表格的1-2-3代表一共有三个分支,每个分支的扩张率分别是1、2、3。 (1-2-3)^{2} 代表1-2-3-1-2-3。
调参方式及实验验证
分支与扩张率
从表1可以得出 分支越多,WER越低 ,模型对噪声越鲁棒。但是如果对扩张率进行调参的话,也是可以在少分支下得到一个不错的结果。
根据表2的扩张率的选择可以看出如果扩张率选的都是3(模型在训练和解码时采用的降采样率)的倍数,这样TDNN-F和扩张率就可以更好的和降采样率契合了。同样根据表2,就时间上的分辨度来说, 扩张率的多样性也可以让模型变得更鲁棒 ,比如1-3-6-9-12-15(每一个分支都有一个和别人不同的扩张率)就比1-3-6-1-3-6(有重复的扩张率)的效果好。
模型大小的影响
如表3所示, 增大模型参数量(网络层数、嵌入向量大小)可以使模型性能提升 ,但提升的非常有限,对于生产上的使用来说,保持一个较快的速度,损失的这些精度也是完全可以接受的。
SpecAugment
SpecAugment是谷歌之前提出的一种数据扩充的方法,他是在频域和时域上对输入的语音频谱进行masking操作。这种操作被广泛用到端到端的ASR模型中,他可以避免过拟合从而对从未见到过的测试数据更加鲁棒。为了将SpecAugment应用到Multistream CNN上,论文将第一部分Single Stream中的前5层TDNN-F替换成了 5层2D-CNN 从而更好地适应对数梅尔频谱。由下图可以看出SpecAugment真的很有用。
如表5所示, 客户频道记录的WER相对改善了11.4% ,说明了多流CNN架构的强大功能。此外, 相对于基线TDNN-F模型,相对实时因子(RTF)优化了15.1% ,这表明了所提出的模型体系结构的实用性,尤其是在需要在线推理的情况下。
总结
论文提出了一种新型的叫做Multistream CNN的网络结构,可以提高声学模型的鲁棒性。在模型评估上,论文不仅用了公开数据集来进行测试,还用了ASAPP公司电话呼叫中心的生产数据进行了测试, 在准确率和速度上都达到了比TDNN-F模型好的效果 。论文作者最后提到之后也会把Multistream CNN的代码开源到kaldi的Librispeech recipe上,大家快期待一下吧~
转载请注明出处!