本篇文章會告訴你如何通過優化數據集來提升人工智能訓練,得到更好的結果。
Author Archive
【官方發布】一圖看懂TensorFlow 2.0新架構
TensorFlow 2.0作為一個重要的里程碑,將更加關注其“易用性”,更注重使用的低門檻,旨在讓每個人都能應用機器學習技術。
「實操講解」機器學習獲取數據難?別忘記特徵工程
為了讓機器學習模型能夠更輕鬆地讀取數據,我們可以運用特徵工程來提升模型的性能。
數據收集六步曲,打好機器學習模型基礎
減少數據準備所需要的時間變得越來越重要,這樣能夠留下更多時間進行模型測試、調試和優化,創造更大的價值。
萬字長文回顧智能駕駛進化史
智能駕駛是如何起源、孕育、發展、爆發的呢?從中我們能夠獲得什麼樣的啟發?本文將回顧這一歷史,並探討新興戰略技術和產業的發展途徑。
日活超1.6億,揭秘快手背後的 AI 技術
為了降低拍攝視頻的門檻,輔助這些「接地氣」的用戶更好地進行內容生產,快手 APP 上使用了大量的 AI 技術。
音素 – phone | phonetics
什麼是因素?
在語音合成中,有一種關鍵技術是將文字拆解成音素,再去語音庫里匹配相同音素的語音片段,來實現文字轉換語音,那麼音素到底是什麼?
音素其實就是人在說話時,能發出最最最最短小、簡潔的不能再分割的發音,不同的音素就是不同的短髮音,可以組成不同的長髮音,再組成詞句形成語言。
中文漢字的最小單位是字,但是一個字可能有多個音素,如下面的例子:
百度百科版本
音素(phone),是語音中的最小的單位,依據音節里的發音動作來分析,一個動作構成一個音素。音素分為元音、輔音兩大類。
如漢語音節 ā(啊)只有一個音素,ài(愛)有兩個音素,dāi(呆)有三個音素等。
用國際音標標註語音的方法稱作標音法,有寬式和嚴式兩種。寬式標音法以能辨義的音位標音,嚴式標音法則以嚴格的音素區別來標音,盡量表現各音素間的區別,寬式標音法採用的符號有限,而嚴式標音法所採用的符號極多,但兩者各有用途。
音素是構成音節的最小單位或最小的語音片段,是從音質的角度劃分出來的最小的線性的語音單位。音素是具體存在的物理現象。國際音標(由國際語音學會制定,用來統一標示各國語音的字母。也稱為“國際語音學字母”“萬國語音學字母”)的音標符號與全人類語言的音素一一對應。
維基百科版本
在語音學和語言學中,音素是任何不同的語音或手勢,無論確切的聲音是否對單詞的含義至關重要。
相反,音素是給定語言的語音,如果與另一個音素交換,則會改變單詞的含義。音素是絕對的,並不是特定於任何語言,但只能參考特定語言討論音素。
拓展閱讀
大數據(Big data)
百度百科版本
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):
- Volume(大量)
- Velocity(高速)
- Variety(多樣)
- Value(低價值密度)
- Veracity(真實性)
維基百科版本
大數據是一個術語,用於指傳統數據處理應用軟件過於龐大或複雜的數據集,以便充分處理。具有許多情況(行)的數據提供更大的統計功率,而具有更高複雜度(更多屬性或列)的數據可能導致更高的錯誤發現率。
大數據挑戰包括捕獲數據,數據存儲,數據分析,搜索,共享,傳輸,可視化,查詢,更新,信息隱私 和數據源。
大數據最初與三個關鍵概念相關聯:大量,多樣和及時。後來歸因於大數據的其他概念是準確性(即 數據中有多少噪聲)和價值。
擴展閱讀
深入淺出大數據:到底什麼是Hadoop?
深入淺出的講解 Hadoop 歷史,對於程序員和沒有編程基礎的人都很適用。
語音合成(Text to Speech | TTS)
小白版本
語音合成就是讓機器模仿人類說話。即輸入一段文字,最終輸出一段語音。
做個比較,當機器的“腦子”里想到了一段內容時,或者是看到了一段話時,知道哪些字應該怎麼讀:
- 拆解文字,得到音素的時長、頻率變化,就和我們有時拆解文字的偏旁、前後綴來獲得文字發音一樣
- 知道哪些字的組合會是一個詞,將這段內容按照人類容易理解的方式說出來
- 在說出來的過程中還會結合這個人的說話習慣、發音特色、口音特點等,得到一段人類特性明顯的語音。(Google 已經做出了很想人類的機器聲音,查看視頻演示)
和人類學說話一樣,機器也需要通過大量的語音片段作為“聽力材料”,才能學會發音技巧。以及還得學會一些語言規則,比如語法和韻律,才能像人類一樣,說話語氣、語境,能表達出字面之外的表意。不然,機器只會說出生硬、沒有情感、不連貫的話(就像一些動漫或遊戲作品中機器人角色的對話)。
音合成技術目前主要應用在讀書軟件、導航軟件、對話問答系統等中。
百度百科版本
語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬於語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。
維基百科版本
語音合成是人類語音的人工生成。用於此目的的計算機系統稱為語音計算機或語音合成器,並且可以用軟件或硬件產品實現。甲文本到語音(TTS)系統轉換正常語言文本轉換成語音; 其他系統呈現符號語言表徵,如將語音轉錄為發音。