|
浏览次数 | |
现在: | |
最近一小时: | |
最近24小时: | |
浏览总量: |
DeepMind称,人与机器交谈是人机交互领域长久以来的梦想。
你是否想过,有一天机器也能用慵懒沙哑的声音和你对话,温柔又带着些许俏皮,而不再是冷冰冰的机器声音,这其中的关键技术就是语音合成。
近日DeepMind在计算机语音合成领域取得了新进展——发布WaveNet语音合成系统。这是一种原始音频波形的深度生成模型,通过人工智能技术的运用,这项新系统将目前计算机系统与人类说话间存在的质量差距缩小了超过50%。
concatenati 和parametric 是Google目前最好的文本转语音(Text-to-Speach)系统,在英语和普通话上,WaveNet超过了这两大系统,将机器水平与人类水平的差距减少超过50%。
当前,机器语音还是以录制的人声简单拼接为主——录制大量的短语音片段构成数据库,然后需要时再将这些短语音组合起来构成完整的话语,显然这样的语音听起来会及其生硬不自然,也缺乏感情。
而WaveNet则是跟着真实的人声学习——直接建模音频信号的原始波形,一次处理一个样本,这也意味着WaveNet能够模仿所有的声音。研究者通常会避免对原始音频进行建模,因为波形波动得非常快:每秒通常至少有16,000个样本,处理这些庞大复杂的数据显然是一个具有挑战性的任务。
以上的动画展示了 WaveNet 的结构
在这样的学习基础上,WaveNet能做到的远比你想象得多。
WaveNet能够学习许多不同声音的特性。因为是从原始的声音建模,WaveNet学习某一声音特性以后,输入新的文本内容,它也能按照该声音特性自然地说出相应的内容;学习了多种声音特性后,输入同一文本,机器就能用不同的声音说同样的话;WaveNet 可被用于建模任何音频信号,就连砸吧嘴的声音和微弱的呼吸声也能被捕捉到,通过对古典钢琴乐的分析,WaveNet甚至创作出了短小的钢琴片段;通过额外的口音和情绪输入,WaveNet还能使机器说话带有“小情绪”。
DeepMind还发现WaveNet表现出了一定的迁移学习能力——在一个地方所学的技能、知识与态度能对另一个学习产生影响,它可以加快学习的速度。WaveNet学习模仿多个说话者要比模仿单个说话者的效果更好。
下面是WaveNet的声音样本,你不妨听听看:
2016-09-12 07:00:22