Author Archive

音素 – phone | phonetics

什麼是因素?

在語音合成中,有一種關鍵技術是將文字拆解成音素,再去語音庫里匹配相同音素的語音片段,來實現文字轉換語音,那麼音素到底是什麼?

音素其實就是人在說話時,能發出最最最最短小、簡潔的不能再分割的發音,不同的音素就是不同的短髮音,可以組成不同的長髮音,再組成詞句形成語言。

中文漢字的最小單位是字,但是一個字可能有多個音素,如下面的例子:

 

百度百科版本

音素(phone),是語音中的最小的單位,依據音節里的發音動作來分析,一個動作構成一個音素。音素分為元音、輔音兩大類。

如漢語音節 ā(啊)只有一個音素,ài(愛)有兩個音素,dāi(呆)有三個音素等。

用國際音標標註語音的方法稱作標音法,有寬式和嚴式兩種。寬式標音法以能辨義的音位標音,嚴式標音法則以嚴格的音素區別來標音,盡量表現各音素間的區別,寬式標音法採用的符號有限,而嚴式標音法所採用的符號極多,但兩者各有用途。

音素是構成音節的最小單位或最小的語音片段,是從音質的角度劃分出來的最小的線性的語音單位。音素是具體存在的物理現象。國際音標(由國際語音學會制定,用來統一標示各國語音的字母。也稱為“國際語音學字母”“萬國語音學字母”)的音標符號與全人類語言的音素一一對應。

查看詳情

 

維基百科版本

在語音學和語言學中,音素是任何不同的語音或手勢,無論確切的聲音是否對單詞的含義至關重要。

相反,音素是給定語言的語音,如果與另一個音素交換,則會改變單詞的含義。音素是絕對的,並不是特定於任何語言,但只能參考特定語言討論音素。

查看詳情

 

大數據(Big data)

百度百科版本

大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):

  1. Volume(大量)
  2. Velocity(高速)
  3. Variety(多樣)
  4. Value(低價值密度)
  5. Veracity(真實性)

查看詳情

 

維基百科版本

大數據是一個術語,用於指傳統數據處理應用軟件過於龐大或複雜的數據集,以便充分處理。具有許多情況(行)的數據提供更大的統計功率,而具有更高複雜度(更多屬性或列)的數據可能導致更高的錯誤發現率。

大數據挑戰包括捕獲數據,數據存儲,數據分析,搜索,共享,傳輸,可視化,查詢,更新,信息隱私 和數據源。

大數據最初與三個關鍵概念相關聯:大量,多樣和及時。後來歸因於大數據的其他概念是準確性(即 數據中有多少噪聲)和價值。

查看詳情

 

相關書籍(3)

語音合成(Text to Speech | TTS)

小白版本

語音合成就是讓機器模仿人類說話。即輸入一段文字,最終輸出一段語音。

語音合成
語音合成

做個比較,當機器的“腦子”里想到了一段內容時,或者是看到了一段話時,知道哪些字應該怎麼讀:

  1. 拆解文字,得到音素的時長、頻率變化,就和我們有時拆解文字的偏旁、前後綴來獲得文字發音一樣
  2. 知道哪些字的組合會是一個詞,將這段內容按照人類容易理解的方式說出來
  3. 在說出來的過程中還會結合這個人的說話習慣、發音特色、口音特點等,得到一段人類特性明顯的語音。(Google 已經做出了很想人類的機器聲音,查看視頻演示

和人類學說話一樣,機器也需要通過大量的語音片段作為“聽力材料”,才能學會發音技巧。以及還得學會一些語言規則,比如語法和韻律,才能像人類一樣,說話語氣、語境,能表達出字面之外的表意。不然,機器只會說出生硬、沒有情感、不連貫的話(就像一些動漫或遊戲作品中機器人角色的對話)。

音合成技術目前主要應用在讀書軟件、導航軟件、對話問答系統等中。

 

百度百科版本

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬於語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

查看詳情

 

維基百科版本

語音合成是人類語音的人工生成。用於此目的的計算機系統稱為語音計算機或語音合成器,並且可以用軟件或硬件產品實現。甲文本到語音(TTS)系統轉換正常語言文本轉換成語音; 其他系統呈現符號語言表徵,如將語音轉錄為發音。

查看詳情