Author Archive

语音合成标记语言-SSML丨Speech Synthesis Markup Language

小白版本

中学的时候参加朗诵比赛,老师教我在文字上“做记号”,把所有的停顿、重音、轻音、语速节奏等全都在文字上标记出来,这样再读就非常简单了。

 

而语音合成(TTS)的过程其实也是朗读的过程,机器若要实现拟人化的朗读发音,其实也可以给它提前把文字做上标记,用到的就是语音合成标记语言(SSML)。

除了进行朗读技巧的标记,SSML还可以对有歧义的文本进行标记,以确定读法,例如:

表示时间时可读为:

  1. “二十三点二十四分”
  2. “晚上十一点二十四分”

表示比分时则读为:

  1. “二十三比二十四”

如果还要在特定环境下需要在语句朗读时加入BGM,也可通过SSML实现定制化的TTS。

 

百度百科版本

语音合成标记语言(SSML:Speech Synthesis Markup Language),它是W3C的语音接口框架的一部分,是关于语音应用和在万维网上构建语音应用的一套规范,通过SSML,人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音,把计算和信息传输延伸到全球每个角落。

SSML是另一种在构建基于语音浏览器技术的VUI时令人迷惑的一部分。SSML能通过语音合成引擎界面推动便携性的发展,这个界面由不同供应商以统一方式提供。SSML是另一种W3C标准,它基于JSML(JSpeech Synthesis Markup Language,Java语音合成置标语言)。SSML根据它试图解决的问题更易于理解。
查看详情

 

维基百科版本

语音合成标记语言(SSML)是一种XML为基础的标记语言用于语音合成应用中。这是一个推荐W3C的语音浏览器工作组。SSML通常嵌入在VoiceXML脚本中以驱动交互式电话系统。但是,它也可以单独使用,例如用于创建有声读物。对于桌面应用程序,其他标记语言很受欢迎,包括Apple的嵌入式语音命令和Microsoft的SAPI Text to Speech(TTS)标记,也是一种XML语言。
查看详情

 

语音识别技术 – ASR丨Automatic Speech Recognition

一文看懂语音识别

语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问。

 

语音识别技术(ASR)是什么?

机器要与人实现对话,那就需要实现三步:

机器要与人对话,需要实现3步

对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。

语音识别的使用场景

语音识别已经成为了一种很常见的技术,大家在日常生活中经常会用到:

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别
  • 微信里有一个功能是”文字语音转文字”,也利用了语音识别
  • 最近流行的智能音箱就是以语音识别为核心的产品
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别

 

语音识别技术讲解

语音识别技术拆分下来,主要可分为“输入——编码——解码——输出 ”4个流程。

语音识别4个流程:输入-编码-解码-输出

那语音识别是怎么工作的呢?

首先声音的本身是一种波,就像我们常常用一段段波形来表示音频一样。 我们常用波段来表示音频

接下来按步骤:

  1. 给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息
  2. 将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程)
  3. 再将状态组合形成音素(通常3个状态=1个音素)
  4. 最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。将音素组成字词

 

百度百科和维基百科

百度百科版本

语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

查看详情

维基百科版本

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

查看详情

 

音素 – phone | phonetics

什么是因素?

在语音合成中,有一种关键技术是将文字拆解成音素,再去语音库里匹配相同音素的语音片段,来实现文字转换语音,那么音素到底是什么?

音素其实就是人在说话时,能发出最最最最短小、简洁的不能再分割的发音,不同的音素就是不同的短发音,可以组成不同的长发音,再组成词句形成语言。

中文汉字的最小单位是字,但是一个字可能有多个音素,如下面的例子:

 

百度百科版本

音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。

如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。

用国际音标标注语音的方法称作标音法,有宽式和严式两种。宽式标音法以能辨义的音位标音,严式标音法则以严格的音素区别来标音,尽量表现各音素间的区别,宽式标音法采用的符号有限,而严式标音法所采用的符号极多,但两者各有用途。

音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

查看详情

 

维基百科版本

在语音学和语言学中,音素是任何不同的语音或手势,无论确切的声音是否对单词的含义至关重要。

相反,音素是给定语言的语音,如果与另一个音素交换,则会改变单词的含义。音素是绝对的,并不是特定于任何语言,但只能参考特定语言讨论音素。

查看详情

 

Chinese (Simplified) ZH-CN English EN