@sambodhi
2018-04-17T14:10:19.000000Z
字数 3350
阅读 1504
语音转换是所有语音识别系统中最重要的部分。给定一个语音向量,这个变换的目标是最大限度地减少语音之内的可变性,同时最大限度地增加语音之间的可变性。在我们最初的方法中,我们从独立于语音的“Hey Siri”探测器导出了语音向量[1],它使用13维的梅尔倒频谱(Mel frequency cepstral coefficients,MFCC)作为声学特性,并将28个HMM状态参数化来建模“Hey Siri”的发音。然后通过将状态端连接成28x13=364维向量来获得语音向量。
这种方法与研究领域中的现有工作非常相似,其中一种最先进的方法,也使用了串接声学状态段作为其在语音中的初始表示。(注:在语音识别的说法中,这种被称为“超向量”,因为它是其他向量的串接。另一种众所周知的标识是“i-vector”,它可以视为超向量的低维表示,捕获最大可变性的方向[3];即类似于主成分分析。虽然i-vector在独立于文本的语音识别问题取得了很大的成功,但我们发现,语音超向量在我们的文本相关场景中,语音超向量同样有效。)那么,目标就是找到这种表示的子空间,它可以作为可靠的语音表示。
继之前的工作之后,我们的语音转换的第一个版本通过线性判别分析(Linear Discriminant Analysis,LDA)使用来自800个生产用户的数据进行训练,每个用户提供了超过100个发音,并产生了一个150维的语音向量。尽管它相对简单,但这个初始版本相对于没有语音转换的基线,显著降低了FA率。
通过使用显式注册数据,增强前端语音向量,并将其转换为一种具有深度神经网络(DNN)形式的非线性判别技术,进一步提高了转换的效果。通过对语音识别研究社区的知识支持,更高阶的倒谱系数可以捕获更多语音特定的信息,我们将MFCC的数量从13个增加到26个。此外,由于前11个HMM状态实际上只是模拟了静音,我们将其从考虑中移除。这就产生了一个包含26x17=442维的新的语音向量。然后,我们训练了一个来自16000个用户的DNN,每个用户提供了大约150句话。网络体系结构由100个神经元隐藏层组成,并具有sigmoid激活(即1x100S),其后是具有线性激活的100-神经元隐藏层,以及具有16000个输出节点的softmax层。该网络训练使用语音向量作为输入,并将每个语音对应的1个热向量为目标。对DNN进行训练后,将最后一层(softmax)移除,并将线性激活层的输出用做语音向量。这个过程如图2所示。
图2. DNN训练和语音向量生成过程
在我们的超参数优化实验中,我们发现一个具有sigmoid激活(即4x256S)神经元层的网络结构,随后100个神经元的线性层得到了最好的结果。我们通过对每层的权重应用8位量化来补偿所需的额外内存,以适应更大的网络参数数量的增加。
除FR和IA率外,我们还可以通过单一等错误率(equal error rate,EER)值总结语音识别系统的性能;这是FR等于IA的点。在没有理想的操作点的情况下,可以包括不同的成本和/或目标与冒充者测试语音的先验概率,那么ERR将成为总体性能的一个很好的指标。
表1. 不同语音转换的性能
a. 语音识别性能
b. 个性化的“Hey Siri”性能(端到端)
表1显示了使用上述三种不同的语音转换获得的ERR。该实验使用来自生产数据的200个随机选择的用户来执行。用户的平均音调从75Hz到250Hz不等。表1 a的前两行表明,通过改进的前端(语音向量)和神经网络(语音向量)所带来的非线性建模,使得语音识别性能得以显著的提高。而第三行显示了更大的网络性能。这些结果得到了一项独立调查的证实,研究者在不同的数据集上探索了类似的方法,并获得了类似的性能改进。
由于ERR仅在语音识别任务中测量,在这个任务中,输入音频被假定为包含“Hey Siri”的实例,由此观察到的改进并不一定能保证端到端“Hey Siri”应用程序的性能改进。表1 b显示了使用各种余韵转换的完整特征的FA、FR和IA率。该实验使用来自播客和其他来源的2800小时的负类(非触发)数据,以及150名男性和女性用户的正类(触发)数据进行。我们的结果似乎表明,改进的DNN语音转换显著地提高了“Hey Siri”的整体性能。
尽管平均语音识别的性能有了显著的提高,但有证据表明,在混响(大房间)和嘈杂(汽车、刮风)等环境中的性能仍然更具挑战性。我们目前的研究工作之一是侧重于理解并量化这些困难条件下的退化,其中传入的测试语音的环境与用户语音的描述严重不匹配。在我们的后续工作[2]中,我们以多风格训练的形式展示了成功,去重一部分训练数据,增加了不同类型噪声和混响。
在其核心,“Hey Siri”功能的目的是让用户能够发出召唤Siri的请求。本文所描述的工作仅利用语音的触发短语(即“Hey Siri”),这是语音识别的一部分;但是,我们还可以利用语音中的Siri请求部分(例如,“…, how’s the weather today?”),以文本独立的语音识别的形式来使用。在论文Generalised Discriminative Transform via Curriculum Learning for Speaker Recognition[2]中,我们调查使用递归神经网络体系结构(特别是LSTM,论文 End-to-end Text-dependent Speaker Verification[5])的课程学习的方法,来总结包含文本相关和文本无关信息的可变长度音频序列的语音信息。我们的研究结果表明,通过使用完整的“Hey Siri”进行语音识别,可以实现显著的性能提升。
[1] Apple Siri 团队:Hey Siri: An On-device DNN-powered Voice Trigger for Apple’s Personal Assistant. Apple Machine Learning Journal, vol. 1, issue 6, October 2017. URL: https://machinelearning.apple.com/2017/10/01/hey-siri.html
[2] E. Marchi、S. Shum、K. Hwang, S. Kajarekar、S. Sigtia、H. Richards、R. Haynes、Y. Kim、J. Bridle著: Generalised Discriminative Transform via Curriculum Learning for Speaker Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), April 2018.
[3] N. Dehak、P. Kenny、R. Dehak、P. Dumouchel、P. Ouellet著: Front-end Factor Analysis for Speaker Verification. IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788-798, May 2011.
[4] G. Bhattacharya、J. Alam、P. Kenny、V. Gupta著: Modelling Speaker and Channel Variability Using Deep Neural Networks for Robust Speaker Verification. Proceedings of the IEEE Workshop on Spoken Language Technology (SLT), December 2016.
[5] G. Heigold、I. Moreno、S. Bengio、N. Shazeer著: End-to-end Text-dependent Speaker Verification. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), March 2016.