探秘语音合成技术的前世今生

本文转载于公众号科大讯飞，原文地址

如今，科技已经悄无声息的渗入我们每个人的生活，有时，你甚至毫无察觉。

比如，拨打10086等服务号，会听到一个优美的女声为您引导；

比如，启用导航软件，会听到一个流畅的语音播报路况。

再比如，使用时下流行的打车软件，有清晰语音为师傅播报乘客的位置。

而这些声音，其实都不是真的。是研究人员通过语音合成技术，让机器发出的声音。并且，经过多年的发展，机器合成的声音不仅能够达成普通人说话水平，更能赋予声音以个性、情感。很多时候，甚至能以假乱真。也许，在不久的将来，各种科幻片动画片中使用的“变声器”将不再是传说。

那么，现在就让科大讯飞带领大家一起来看一看这门神奇的技术是前世、今生。感受语音世界的神奇魅力。

语音合成又称文语转换（Text toSpeech，TTS）技术，通过机械的、电子的方法产生人造语音。通俗的讲，语音合成技术就是赋予计算机像人一样可以自如说话的能力。

最早的“语音合成”是利用机械装置实现的。Kratzenstein在1779年研制出一种机械式语音合成器，用风箱模拟人的肺、簧片模拟声带、以皮革制成的共振腔模拟声道，通过改变共振腔的形状，可以合成出一些不同的元音。这可谓是人类历史上最早的合成技术。

19世纪出现电子器件以来，语音合成技术快速发展。1939年，贝尔实验室H. Dudley制作出一个电子合成器(Dudley’39)。这是一个利用共振峰原理制作的语音合成器，它以一些白噪音似的激励产生非浊音信号，以周期性的激励产生浊音信号。模拟声道的共振器是通过一个10阶的带通滤波器建模，模型的增益通过人来控制。