百度发布全深度学习文本到语音转化系统 Deep Voice

2017年5月26日 13:45

百度最新发布文本到语音转化系统Deep Voice。百度称，这是一个全部由深度神经网络构建的系统，在文本到语音的转化速度上比 WaveNet 快400倍。 DeepVoice

百度研究院今天发布 Deep Voice，这是一个文本到语音转化系统，完全由深度神经网络构建。

百度研究院在官方博客上写道：

目前，要搭建这样一个系统，最大的阻碍在于声频合成的速度，此前的方法一般都需要数分钟或数小时来生成几秒的语音。

我们解决了这一难题，并且证明我们能够进行实时的音频合成。在速度上，这一系统比WaveNet 参数部署要快400倍。

从文本中生成人造的语音，通常被称为文本转语音（TTS），它是许多应用，比如，语音驱动的设备、导航系统和视力障碍者设备中不可或缺的工具。从根本上说，它能让人在不需要视觉交互的情况下与技术进行互动。

现代的 TTS 系统都是基于复杂的、多步骤的处理管道，其中，每一个管道都可能会依赖于人为设计的特征和启发。由于这种复杂性，建造新的TTS 系统是非常消耗人力，而且也会非常困难的。

DeepVoice 受到传统的本文到语音的管道启发，并且采纳了相同的架构，但是，DeepVoice 使用神经网络来代替全部组件，并使用了更简单的特征。这是的我们的系统能更好地适用于新的数据库、声音和领域，而不需要任何人为的数据标注或者额外的特征设计。

DeepVoice 为真正的端到端的，且不需要复杂处理管道、不依赖于手动设计特征进行输入和预训练的语音合成奠定了基础。

我们目前的管道依然不是端到端的，它由一个音素模型和一个音频合成组件构成。

声音中的机器人声音特性产生于管道结构和音素模型，然后，声频生成组件单独可以生成更加自然的音频片段。

音频片段试听地址：

深度学习以及变革了许多领域，包括计算机视觉和语音识别，并且，我们相信，文本到语音的转换现在也处在了类似的转折点上，我们非常期待深度学习社区能一起努力，并且希望能以一种可再生的细节程度，来分享我们的整个文本到语音的转化系统，进而加速这一进程。

论文：DeepVoice：Real-Time Neural Text-to-Speech

加入收藏 设为首页___