小白版本
语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。
做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:
- 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
- 知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来
- 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。(Google 已经做出了很想人类的机器声音,查看视频演示)
和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。以及还得学会一些语言规则,比如语法和韵律,才能像人类一样,说话语气、语境,能表达出字面之外的表意。不然,机器只会说出生硬、没有情感、不连贯的话(就像一些动漫或游戏作品中机器人角色的对话)。
音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。
百度百科版本
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
维基百科版本
语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,如将语音转录为发音。
Comments