@sambodhi 2018-03-28T23:12:35.000000Z 字数 2717 阅读 4428

Google推出云端TTS：借力DeepMind WaveNet技术，语音合成提速1000倍

作者|Dan Aharon
译者|Sambodhi
编辑|Natalie

AI前线导读： WaveNet是Google DeepMind最新推出的基于深度学习的原始音频生成模型，能够模仿人类的声音，并让听者难以分辨到底是机器生成的声音还是真人的声音。使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。3月27号，Google在Google Cloud Platform上推出了云端TTS（Cloud Text-to-Speech）功能，用户可以很方便地借助它来实现文字转语音的应用，使用时还可以选择由DeepMind的WaveNet生成的高保真音频。AI前线翻译了Google Cloud AI产品经理Dan Aharon写的博文Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology，对Cloud TTS功能进行进一步介绍。

Google许多产品（如Google Assistant语音智能助手、搜索、地图）都内置了高质量的语音合成功能，可以生成非常自然的声音。很多开发人员告诉我们，他们希望在自己的应用中添加语音合成功能，所以我们将这个技术集成到了Google Cloud Platform上，谓之云端TTS。

AI前线注：Google Cloud Platform的官网为：https://cloud.google.com/
Cloud Text-to-Speech的官网为：https://cloud.google.com/text-to-speech/
在本文中，为行文方便，Cloud Text-to-Speech简称为云端TTS。

云端TTS的使用方法可以有很多种，例如：

为呼叫中心提供语音应答系统，并启用实时自然语言对话；
让物联网设备（如电视、汽车、机器人）能够与用户交谈；
使用云端TTS时，你可以在12种语言和语言变体，共32种不同的声音中选择。云端TTS能够正确地读出复杂的文本，例如姓名、日期、时间和地址。云端TTS还可以定制音调、语速和音量增益，并支持多种音频格式，包括MP3和WAV。

应用云端TTS，你可以从12种语言和语言变体中，选择32种不同的声音。云端TTS能够正确地读出复杂的文本，例如姓名、日期、时间和地址。云端TTS还可以定制音调、语速和音量增益，并支持多种音频格式，包括MP3和WAV。

AI前线注：语言变体是一个内涵很宽泛的概念，大至一种语言的各种方言，小至一种方言中某一项语音、词汇或句法特征，只要有一定的社会分布的范围，就是一种语言变体。语言的变体受到复杂的社会因素制约，社会语言学对语言变体的研究一般认为，讲话人的社会阶级（Class）和讲话风格（Style）是语言变体的重要基础，而讲话人的性别对语言变体也产生重要影响。根据使用者来划分的变体叫方言，根据语言使用来划分的变体叫语体或语域。

尽情享用DeepMind新技术吧！

此外，Google宣布，云端TTS还包括使用WaveNet构建的高保真语音的选项。WaveNet是DeepMind开发的用于原始音频的生成模型，它能够合成更加自然的语音，普遍看来，相较于其他TTS技术，人们更喜欢WaveNet合成的音频。

AI前线注：要了解WaveNet可参阅这篇文章：WaveNet: A Generative Model for Raw Audio（https://deepmind.com/blog/wavenet-generative-model-raw-audio/）

在2016年末，DeepMind推出了WaveNet的第一个版本，这是一个在大量语音样本中进行训练的神经网络，能够从头开始创建原始音频的波形。在训练过程中，神经网络会提取语音的基本结构，例如，哪些音调会彼此相继，以及真实的语音波形应该具有什么样的形状。当输入给定文本时，经过训练的WaveNet模型会生成相应的语音波形，一次一个样本，从而实现比其他方法更高的精度。

快进到今天，我们现在运行在Google Cloud TPU基础设施上的是更新后的WaveNet。改进后的WaveNet模型生成原始波形的速度比原来的模型要快1000倍，在50毫秒内就能生成时长为1秒钟的语音。这个新模型不仅速度更快，而且保真度更高，能够以每秒24000个样本的速度创建波形。Google还将每个样本的分辨率从8位提到到16位，以提高音频质量，使之更加酷似人声。

AI前线注：欲了解Google Cloud TPU的基础设施，可参阅Cloud TPU machine learning accelerators now available in beta（https://cloudplatform.googleblog.com/2018/02/Cloud-TPU-machine-learning-accelerators-now-available-in-beta.html）。

通过这些调整，WaveNet的新模型可以生成更为自然的声音。在测试中，人们对新的美式英语口音的WaveNet声音进行打分，主观印象评测（mean-opinion-score，MOS）平均得分为4.1（分数范围为1~5），这已经比标准声音好20%以上了，而且与人类语音的差距减少了70%。由于WaveNet的声音只需要较少的录音音频输入就能生成高质量的模型，因此，Google期望在未来几个月内，能够继续为云端客户改善WaveNet的声音多样性和质量。

云端TTS已经帮助多个客户为他们的最终用户提供了更好的体验，这些客户中，包括Cisco和Dolphin ONE。

“作为协作解决方案的领先供应商，Cisco一贯有将最新的技术进步引入企业的传统。Google的云端TTS让我们得以实现客户们所渴望的自然音质。”

— Tim Tuttle, CTO of Cognitive Collaboration, Cisco

“Dolphin ONE的Calll.io电话平台可在任何位置提供来自多种设备的连接。我们已将云端TTS集成到我们的产品中，并允许用户创建自然的呼叫中心体验。通过使用Google云端的机器学习工具，我们可以马上将尖端技术交付给我们的用户。”

—Jason Berryman, Dolphin ONE

原文
https://cloudplatform.googleblog.com/2018/03/introducing-Cloud-Text-to-Speech-powered-by-Deepmind-WaveNet-technology.html

Google推出云端TTS：借力DeepMind WaveNet技术，语音合成提速1000倍

尽情享用DeepMind新技术吧！

内容目录

选择主题