Author Archive

AI 數據集最常見的6大問題（附解決方案）

本篇文章會告訴你如何通過優化數據集來提升人工智能訓練，得到更好的結果。

【官方發布】一圖看懂TensorFlow 2.0新架構

TensorFlow 2.0作為一個重要的里程碑，將更加關注其“易用性”，更注重使用的低門檻，旨在讓每個人都能應用機器學習技術。

「實操講解」機器學習獲取數據難？別忘記特徵工程

為了讓機器學習模型能夠更輕鬆地讀取數據，我們可以運用特徵工程來提升模型的性能。

數據收集六步曲，打好機器學習模型基礎

減少數據準備所需要的時間變得越來越重要，這樣能夠留下更多時間進行模型測試、調試和優化，創造更大的價值。

萬字長文回顧智能駕駛進化史

智能駕駛是如何起源、孕育、發展、爆發的呢？從中我們能夠獲得什麼樣的啟發？本文將回顧這一歷史，並探討新興戰略技術和產業的發展途徑。

日活超1.6億，揭秘快手背後的 AI 技術

為了降低拍攝視頻的門檻，輔助這些「接地氣」的用戶更好地進行內容生產，快手 APP 上使用了大量的 AI 技術。

音素 – phone | phonetics

什麼是因素？

在語音合成中，有一種關鍵技術是將文字拆解成音素，再去語音庫里匹配相同音素的語音片段，來實現文字轉換語音，那麼音素到底是什麼？

音素其實就是人在說話時，能發出最最最最短小、簡潔的不能再分割的發音，不同的音素就是不同的短髮音，可以組成不同的長髮音，再組成詞句形成語言。

中文漢字的最小單位是字，但是一個字可能有多個音素，如下面的例子：

百度百科版本

音素（phone），是語音中的最小的單位，依據音節里的發音動作來分析，一個動作構成一個音素。音素分為元音、輔音兩大類。

如漢語音節 ā（啊）只有一個音素，ài（愛）有兩個音素，dāi（呆）有三個音素等。

用國際音標標註語音的方法稱作標音法，有寬式和嚴式兩種。寬式標音法以能辨義的音位標音，嚴式標音法則以嚴格的音素區別來標音，盡量表現各音素間的區別，寬式標音法採用的符號有限，而嚴式標音法所採用的符號極多，但兩者各有用途。

音素是構成音節的最小單位或最小的語音片段，是從音質的角度劃分出來的最小的線性的語音單位。音素是具體存在的物理現象。國際音標（由國際語音學會制定，用來統一標示各國語音的字母。也稱為“國際語音學字母”“萬國語音學字母”）的音標符號與全人類語言的音素一一對應。

查看詳情

維基百科版本

在語音學和語言學中，音素是任何不同的語音或手勢，無論確切的聲音是否對單詞的含義至關重要。

相反，音素是給定語言的語音，如果與另一個音素交換，則會改變單詞的含義。音素是絕對的，並不是特定於任何語言，但只能參考特定語言討論音素。

查看詳情

拓展閱讀

相關書籍（1）

推薦書目：《語音學概論》

大數據（Big data）

百度百科版本

大數據（big data），指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法（抽樣調查）這樣捷徑，而採用所有數據進行分析處理。大數據的5V特點（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多樣）
Value（低價值密度）
Veracity（真實性）

查看詳情

維基百科版本

大數據是一個術語，用於指傳統數據處理應用軟件過於龐大或複雜的數據集，以便充分處理。具有許多情況（行）的數據提供更大的統計功率，而具有更高複雜度（更多屬性或列）的數據可能導致更高的錯誤發現率。

大數據挑戰包括捕獲數據，數據存儲，數據分析，搜索，共享，傳輸，可視化，查詢，更新，信息隱私和數據源。

大數據最初與三個關鍵概念相關聯：大量，多樣和及時。後來歸因於大數據的其他概念是準確性（即數據中有多少噪聲）和價值。

查看詳情

擴展閱讀

相關書籍（3）

《大數據時代》

《決戰大數據》

《智能時代》

入門類文章（3）

五分鐘解讀“大數據”

深入淺出大數據：到底什麼是Hadoop

必讀！這6本書帶你了解數據科學的硬核技能

實踐類文章（3）

33種經典圖表類型總結，輕鬆玩轉數據可視化

還在為數據清洗抓狂？這裡有一個簡單實用的清洗代碼集

中了數據可視化的毒：BBC如何使用R語言繪製數據圖表？

開拓視野類文章（2）

不讓「數據孤島」成為 AI 發展的絆腳石，「聯邦學習」將成突破口？（2019-2-27）

一文看懂大數據領域的六年巨變

深入淺出大數據：到底什麼是Hadoop？

深入淺出的講解 Hadoop 歷史，對於程序員和沒有編程基礎的人都很適用。

語音合成（Text to Speech | TTS）

小白版本

語音合成就是讓機器模仿人類說話。即輸入一段文字，最終輸出一段語音。

做個比較，當機器的“腦子”里想到了一段內容時，或者是看到了一段話時，知道哪些字應該怎麼讀：

拆解文字，得到音素的時長、頻率變化，就和我們有時拆解文字的偏旁、前後綴來獲得文字發音一樣
知道哪些字的組合會是一個詞，將這段內容按照人類容易理解的方式說出來
在說出來的過程中還會結合這個人的說話習慣、發音特色、口音特點等，得到一段人類特性明顯的語音。（Google 已經做出了很想人類的機器聲音，查看視頻演示）

和人類學說話一樣，機器也需要通過大量的語音片段作為“聽力材料”，才能學會發音技巧。以及還得學會一些語言規則，比如語法和韻律，才能像人類一樣，說話語氣、語境，能表達出字面之外的表意。不然，機器只會說出生硬、沒有情感、不連貫的話（就像一些動漫或遊戲作品中機器人角色的對話）。

音合成技術目前主要應用在讀書軟件、導航軟件、對話問答系統等中。

百度百科版本

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術（又稱文語轉換技術）隸屬於語音合成，它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

查看詳情

維基百科版本

語音合成是人類語音的人工生成。用於此目的的計算機系統稱為語音計算機或語音合成器，並且可以用軟件或硬件產品實現。甲文本到語音（TTS）系統轉換正常語言文本轉換成語音; 其他系統呈現符號語言表徵，如將語音轉錄為發音。

查看詳情

擴展閱讀

入門類文章（2）

語音合成 TTS | AI 產品經理需要了解的 AI 技術概念

語音合成 TTS (Text-To-Speech) 的原理是什麼？

開拓視野類文章（2）

方興未艾的語音合成技術與應用

探秘語音合成技術的前世今生

Author Archive

AI 數據集最常見的6大問題（附解決方案）

【官方發布】一圖看懂TensorFlow 2.0新架構

「實操講解」機器學習獲取數據難？別忘記特徵工程

數據收集六步曲，打好機器學習模型基礎

萬字長文回顧智能駕駛進化史

日活超1.6億，揭秘快手背後的 AI 技術

音素 – phone | phonetics

什麼是因素？

百度百科版本

維基百科版本

拓展閱讀

大數據（Big data）

百度百科版本

維基百科版本

擴展閱讀

深入淺出大數據：到底什麼是Hadoop？

語音合成（Text to Speech | TTS）

小白版本

百度百科版本

維基百科版本

擴展閱讀

關於 easyAI

關注我們的公眾號：easyai-tech

什麼是因素？

百度百科版本

維基百科版本

拓展閱讀

百度百科版本

維基百科版本

擴展閱讀

小白版本

百度百科版本

維基百科版本

擴展閱讀

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech