Author Archive

音素 – phone | phonetics

什么是因素?

在语音合成中,有一种关键技术是将文字拆解成音素,再去语音库里匹配相同音素的语音片段,来实现文字转换语音,那么音素到底是什么?

音素其实就是人在说话时,能发出最最最最短小、简洁的不能再分割的发音,不同的音素就是不同的短发音,可以组成不同的长发音,再组成词句形成语言。

中文汉字的最小单位是字,但是一个字可能有多个音素,如下面的例子:

 

百度百科版本

音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。

如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。

用国际音标标注语音的方法称作标音法,有宽式和严式两种。宽式标音法以能辨义的音位标音,严式标音法则以严格的音素区别来标音,尽量表现各音素间的区别,宽式标音法采用的符号有限,而严式标音法所采用的符号极多,但两者各有用途。

音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

查看详情

 

维基百科版本

在语音学和语言学中,音素是任何不同的语音或手势,无论确切的声音是否对单词的含义至关重要。

相反,音素是给定语言的语音,如果与另一个音素交换,则会改变单词的含义。音素是绝对的,并不是特定于任何语言,但只能参考特定语言讨论音素。

查看详情

 

大数据(Big data)

百度百科版本

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):

  1. Volume(大量)
  2. Velocity(高速)
  3. Variety(多样)
  4. Value(低价值密度)
  5. Veracity(真实性)

查看详情

 

维基百科版本

大数据是一个术语,用于指传统数据处理应用软件过于庞大或复杂的数据集,以便充分处理。具有许多情况(行)的数据提供更大的统计功率,而具有更高复杂度(更多属性或列)的数据可能导致更高的错误发现率。

大数据挑战包括捕获数据,数据存储,数据分析,搜索,共享,传输,可视化,查询,更新,信息隐私 和数据源。

大数据最初与三个关键概念相关联:大量,多样和及时。后来归因于大数据的其他概念是准确性(即 数据中有多少噪声)和价值。

查看详情

 

相关书籍(3)

语音合成(Text to Speech | TTS)

小白版本

语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。

语音合成
语音合成

做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:

  1. 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
  2. 知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来
  3. 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。(Google 已经做出了很想人类的机器声音,查看视频演示

和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。以及还得学会一些语言规则,比如语法和韵律,才能像人类一样,说话语气、语境,能表达出字面之外的表意。不然,机器只会说出生硬、没有情感、不连贯的话(就像一些动漫或游戏作品中机器人角色的对话)。

音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。

 

百度百科版本

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

查看详情

 

维基百科版本

语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,如将语音转录为发音。

查看详情