Author Archive

語音合成標記語言-SSML丨Speech Synthesis Markup Language

小白版本

中學的時候參加朗誦比賽,老師教我在文字上「做記號」,把所有的停頓、重音、輕音、語速節奏等全都在文字上標記出來,這樣再讀就非常簡單了。

 

而語音合成(TTS)的過程其實也是朗讀的過程,機器若要實現擬人化的朗讀發音,其實也可以給它提前把文字做上標記,用到的就是語音合成標記語言(SSML)。

除了進行朗讀技巧的標記,SSML還可以對有歧義的文本進行標記,以確定讀法,例如:

表示時間時可讀為:

  1. 「二十三點二十四分」
  2. 「晚上十一點二十四分」

表示比分時則讀為:

  1. 「二十三比二十四」

如果還要在特定環境下需要在語句朗讀時加入BGM,也可通過SSML實現定製化的TTS。

 

百度百科版本

語音合成標記語言(SSML:Speech Synthesis Markup Language),它是W3C的語音介面框架的一部分,是關於語音應用和在萬維網上構建語音應用的一套規範,通過SSML,人們可以更多的通過行動電話、桌面計算機和其他設備來聆聽合成語音,把計算和信息傳輸延伸到全球每個角落。

SSML是另一種在構建基於語音瀏覽器技術的VUI時令人迷惑的一部分。SSML能通過語音合成引擎界面推動便攜性的發展,這個界面由不同供應商以統一方式提供。SSML是另一種W3C標準,它基於JSML(JSpeech Synthesis Markup Language,Java語音合成置標語言)。SSML根據它試圖解決的問題更易於理解。
查看詳情

 

維基百科版本

語音合成標記語言(SSML)是一種XML為基礎的標記語言用於語音合成應用中。這是一個推薦W3C的語音瀏覽器工作組。SSML通常嵌入在VoiceXML腳本中以驅動互動式電話系統。但是,它也可以單獨使用,例如用於創建有聲讀物。對於桌面應用程序,其他標記語言很受歡迎,包括Apple的嵌入式語音命令和Microsoft的SAPI Text to Speech(TTS)標記,也是一種XML語言。
查看詳情

 

語音識別技術 – ASR丨Automatic Speech Recognition

一文看懂語音識別

語音識別是什麼?他有什麼價值,以及他的技術原理是什麼?本文將解答大家對語音識別的常見疑問。

 

語音識別技術(ASR)是什麼?

機器要與人實現對話,那就需要實現三步:

機器要與人對話,需要實現3步

對應的便是「耳」、「腦」、「口」的工作,機器要聽懂人類說話,就離不開語音識別技術(ASR)。

語音識別的使用場景

語音識別已經成為了一種很常見的技術,大家在日常生活中經常會用到:

  • 蘋果的用戶肯定都體驗過 Siri ,就是典型的語音識別
  • 微信里有一個功能是”文字語音轉文字”,也利用了語音識別
  • 最近流行的智能音箱就是以語音識別為核心的產品
  • 比較新款的汽車基本都有語音控制的功能,這也是語音識別

 

語音識別技術講解

語音識別技術拆分下來,主要可分為「輸入——編碼——解碼——輸出 」4個流程。

語音識別4個流程:輸入-編碼-解碼-輸出

那語音識別是怎麼工作的呢?

首先聲音的本身是一種波,就像我們常常用一段段波形來表示音頻一樣。 我們常用波段來表示音頻

接下來按步驟:

  1. 給音頻進行信號處理後,便要按幀(毫秒級)拆分,並對拆分出的小段波形按照人耳特徵變成多維向量信息
  2. 將這些幀信息識別成狀態(可以理解為中間過程,一種比音素還要小的過程)
  3. 再將狀態組合形成音素(通常3個狀態=1個音素)
  4. 最後將音素組成字詞(dà jiā hǎo)並串連成句 。於是,這就可以實現由語音轉換成文字了。將音素組成字詞

 

百度百科和維基百科

百度百科版本

語音識別技術,也被稱為自動語音識別 Automatic Speech Recognition,(ASR),其目標是將人類的語音中的辭彙內容轉換為計算機可讀的輸入,例如按鍵、二進位編碼或者字元序列。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的辭彙內容。

查看詳情

維基百科版本

語音識別是計算語言學的跨學科子領域,其開發方法和技術,使得能夠通過計算機識別和翻譯口語。它也被稱為自動語音識別(ASR),計算機語音識別或語音到文本(STT)。它融合了語言學,計算機科學和電氣工程領域的知識和研究。

一些語音識別系統需要「訓練」(也稱為「登記」),其中個體說話者將文本或孤立的辭彙讀入系統。系統分析人的特定聲音並使用它來微調對該人的語音的識別,從而提高準確性。不使用訓練的系統稱為「說話者無關」 系統。使用訓練的系統稱為「說話者依賴」。

查看詳情

 

音素 – phone | phonetics

什麼是因素?

在語音合成中,有一種關鍵技術是將文字拆解成音素,再去語音庫里匹配相同音素的語音片段,來實現文字轉換語音,那麼音素到底是什麼?

音素其實就是人在說話時,能發出最最最最短小、簡潔的不能再分割的發音,不同的音素就是不同的短髮音,可以組成不同的長髮音,再組成詞句形成語言。

中文漢字的最小單位是字,但是一個字可能有多個音素,如下面的例子:

 

百度百科版本

音素(phone),是語音中的最小的單位,依據音節里的發音動作來分析,一個動作構成一個音素。音素分為母音、輔音兩大類。

如漢語音節 ā(啊)只有一個音素,ài(愛)有兩個音素,dāi(呆)有三個音素等。

用國際音標標註語音的方法稱作標音法,有寬式和嚴式兩種。寬式標音法以能辨義的音位標音,嚴式標音法則以嚴格的音素區別來標音,盡量表現各音素間的區別,寬式標音法採用的符號有限,而嚴式標音法所採用的符號極多,但兩者各有用途。

音素是構成音節的最小單位或最小的語音片段,是從音質的角度劃分出來的最小的線性的語音單位。音素是具體存在的物理現象。國際音標(由國際語音學會制定,用來統一標示各國語音的字母。也稱為「國際語音學字母」「萬國語音學字母」)的音標符號與全人類語言的音素一一對應。

查看詳情

 

維基百科版本

在語音學和語言學中,音素是任何不同的語音或手勢,無論確切的聲音是否對單詞的含義至關重要。

相反,音素是給定語言的語音,如果與另一個音素交換,則會改變單詞的含義。音素是絕對的,並不是特定於任何語言,但只能參考特定語言討論音素。

查看詳情

 

Chinese (Simplified) ZH-CN English EN