IBM的AI通过5分钟的交谈就能产生高质量的声音
训练功能强大的文本到语音模型需要足够强大的硬件。OpenAI最近发布的一项研究将这一点推向了现实-它发现自2012年以来,最大规模运行中使用的计算量增长了300,000倍以上。为了追求要求较低的模型,IBM的研究人员开发了一种新的轻量级和模块化的语音合成方法。他们说,通过学习演讲者语音的不同方面,它可以实时合成高质量的语音,从而可以适应少量数据而适应新的演讲风格和语音。
IBM研究人员Zvi写道:“深度学习的最新进展通过更有效地学习说话者的语音和说话方式以及更自然地生成高质量的输出语音,极大地改善了语音合成(TTS)系统的开发。” Kons,Slava Shechtman和Alex Sorin在博客上发表了伴随着Interspeech 2019上发表的预印本的论文。“但是,要生成这种高质量的语音,大多数TTS系统都依赖于难以训练和执行的大型和复杂的神经网络模型。即使使用GPU,也不允许实时语音合成。为了解决这些挑战,我们的…团队开发了一种基于模块化体系结构的神经语音合成新方法。
IBM团队的系统由三个相互联系的部分组成:韵律特征预测器,声学特征预测器和神经声码器。韵律预测位学习语音样本的持续时间,音调和能量,以更好地表现说话者的风格为目标。至于声学特征的产生,它在训练或适应数据中创建说话者声音的表示,而声码器从声学特征中生成语音样本。
基于来自目标说话者的少量数据,所有组件一起工作,以通过重新训练使合成语音适应目标说话者。在一项涉及志愿者的测试中,志愿者被要求收听并评估成对的合成语音和自然语音样本的质量,该团队报告说,该模型保持了与原始说话者相同的高质量和相似性,而语音仅需五分钟即可接受训练。
这项工作是IBM新的Watson TTS服务的基础,可以在这里听到。(从下拉菜单中选择“ V3”声音。)
这项新研究是在IBM科学家详细介绍了将AI语音识别培训时间从一周减少到11个小时的自然语言处理技术之后的几个月。另外,在5月,IBM团队完成了一个新颖的系统的总结,该系统在广播新闻字幕任务上实现了“行业领先”的结果。