小白版本

中学的时候参加朗诵比赛,老师教我在文字上“做记号”,把所有的停顿、重音、轻音、语速节奏等全都在文字上标记出来,这样再读就非常简单了。

 

而语音合成(TTS)的过程其实也是朗读的过程,机器若要实现拟人化的朗读发音,其实也可以给它提前把文字做上标记,用到的就是语音合成标记语言(SSML)。

除了进行朗读技巧的标记,SSML还可以对有歧义的文本进行标记,以确定读法,例如:

表示时间时可读为:

  1. “二十三点二十四分”
  2. “晚上十一点二十四分”

表示比分时则读为:

  1. “二十三比二十四”

如果还要在特定环境下需要在语句朗读时加入BGM,也可通过SSML实现定制化的TTS。

 

百度百科版本

语音合成标记语言(SSML:Speech Synthesis Markup Language),它是W3C的语音接口框架的一部分,是关于语音应用和在万维网上构建语音应用的一套规范,通过SSML,人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音,把计算和信息传输延伸到全球每个角落。

SSML是另一种在构建基于语音浏览器技术的VUI时令人迷惑的一部分。SSML能通过语音合成引擎界面推动便携性的发展,这个界面由不同供应商以统一方式提供。SSML是另一种W3C标准,它基于JSML(JSpeech Synthesis Markup Language,Java语音合成置标语言)。SSML根据它试图解决的问题更易于理解。
查看详情

 

维基百科版本

语音合成标记语言(SSML)是一种XML为基础的标记语言用于语音合成应用中。这是一个推荐W3C的语音浏览器工作组。SSML通常嵌入在VoiceXML脚本中以驱动交互式电话系统。但是,它也可以单独使用,例如用于创建有声读物。对于桌面应用程序,其他标记语言很受欢迎,包括Apple的嵌入式语音命令和Microsoft的SAPI Text to Speech(TTS)标记,也是一种XML语言。
查看详情