Author Archive

GPU(Graphics Processing Unit)

什麼是 GPU?

CPU 能力更強大,能做很多事情,適合處理複雜的任務。GPU 結構簡單,可以形成人海戰術,適合處理重複簡單的任務。

知乎上有一個回答很應景:

GPU和CPU的差別
GPU和CPU的差別

 

一個數學教授和100個小學生PK。

第一回合,四則運算,一百個題。教授拿到卷子一道道算。一百個小學生各拿一道題。教授剛開始算到第二題的時候,小學生集體交卷。第一回合小學生碾壓教授。

第二回合,高等函數。一百個題。當教授搞定後。一百個小學生還不知道在幹嘛…….第二回合,教授碾壓一百個小學生。好理解嗎?

這就是CPU和GPU的淺顯比較。

 

百度百科版本

圖形處理器(英語:Graphics Processing Unit,縮寫:GPU),又稱顯示核心、視覺處理器、顯示晶元,是一種專門在個人電腦、工作站、遊戲機和一些移動設備(如平板電腦、智能手機等)上圖像運算工作的微處理器。

用途是將計算機系統所需要的顯示信息進行轉換驅動,並向顯示器提供行掃描信號,控制顯示器的正確顯示,是連接顯示器和個人電腦主板的重要元件,也是「人機對話」的重要設備之一。顯卡作為電腦主機里的一個重要組成部分,承擔輸出顯示圖形的任務,對於從事專業圖形設計的人來說顯卡非常重要。

查看詳情

 

維基百科版本

圖形處理單元(GPU)是一個專門的電子電路設計成迅速操縱和改變存儲器加速的創建圖像在一個幀緩衝器旨在用於輸出到顯示裝置。GPU用於嵌入式系統,行動電話,個人計算機,工作站和遊戲控制台。現代GPU在處理計算機圖形和圖像處理方面非常有效。它們高度並行的結構使它們比通用的更有效用於並行處理大塊數據的演算法的CPU。在個人計算機中,GPU可以存在於視頻卡上或嵌入在主板上。在某些CPU中,它們嵌入在CPU 晶元上。

GPU至少在20世紀80年代一直被使用,它在1999年由Nvidia推廣,他將GeForce 256作為「世界上第一個GPU」 推向市場。它被呈現為「具有集成變換,光照,三角形設置/剪切和渲染引擎的單晶元處理器」。競爭對手ATI Technologies在2002年發布了Radeon 9700,創造了「 視覺處理單元 」或VPU這一術語。

查看詳情

 

算力 – computation

人工智慧里的算力是什麼?

在普通電腦中,CPU就提供了算力幫助電腦快速運行。玩遊戲的時候需要顯卡提供算力,幫助電腦快速處理圖形。而在 人工智慧中,需要有類似CPU和GPU的硬體來提供算力,幫助演算法快速運算出結果。

之前在演算法里講過,在製造木桌的過程中,工廠的流水線就是演算法。在那個例子中,工廠中的機器就像算力,機器越好越先進,製造的過程就越快。

 

算力越大,速度越快
算力越大,速度越快

 

維基百科版本

Techpedia版本

算力是使用計算機技術完成給定目標導向任務的過程。算力可以包括軟體和硬體系統的設計和開發,用於廣泛的目的 – 通常構建,處理和管理任何類型的信息 – 以幫助追求科學研究,製作智能系統,以及創建和使用不同的媒體娛樂和交流。

查看詳情

 

維基百科版本

算力是使用計算機的任何活動。它包括開發硬體 和軟體,以及使用計算機來管理和處理信息,進行交流和娛樂。算力是現代工業技術的一個至關重要的組成部分。主要的計算學科包括計算機工程,軟體工程,計算機科學,信息系統和信息技術。

查看詳情

 

演算法 – Algorithm

一文看懂人工智慧里的演算法

人工智慧有三駕馬車:數據、演算法、算力。本文重點介紹演算法相關的知識。

本文將介紹演算法在人工智慧里的概念,演算法的4個特徵、6個通用方法。以及在選擇演算法時需要注意的3個點。

 

什麼是演算法?

簡單的說,演算法就是:解決問題的手段,並且是批量化解決問題的手段。

菜譜就是一種「演算法」,只要按照菜譜的方法做,就能做出對應的菜。

菜譜就是一種演算法

人工智慧里的演算法主要是用來訓練模型的。

機器學習 一共有7步,第3步就是選擇合適的演算法模型。通過訓練得到最後的可預測模型。

機器學習第3步就是選擇合適的演算法模型

演算法的4個基本特徵

演算法的4個基本特徵

演算法具有下面4個特徵:

  1. 可行性
  2. 確定性
  3. 有窮性
  4. 擁有足夠的情報

關於這4項特徵詳細的說明請查看《演算法的基本概念

 

演算法的6個基本方法

計算機的演算法和人類計算的方式不同,大致有6種不同的思路:

  1. 列舉法
  2. 歸納法
  3. 遞推
  4. 遞歸
  5. 減半遞推技術
  6. 回溯法

想要了解詳情可以查看《演算法的基本概念

 

選擇演算法時的3個Tips

選擇演算法的3個tips

  1. 解決不同的問題可能會用到不同的演算法,也可能用相同的演算法。沒有某種演算法是萬能的,只是適用的範圍不同而已。
  2. 演算法沒有高級和低級之分,快速便宜的解決問題才是目的,一味追求複雜的演算法(例如:深度學習),相當於「用大炮打蚊子」
  3. 有時候有多種演算法可以解決同一個問題,用最低的成本和最短的時間解決問題才是目的。根據不同環境選擇合適的演算法很重要。

 

百度百科+維基百科

百度百科版本

演算法是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,演算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。

如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間複雜度與時間複雜度來衡量。 演算法中的指令描述的是一個計算,當其運行時能從一個初始狀態和(可能為空的)初始輸入開始,經過一系列有限而清晰定義的狀態,最終產生輸出並停止於一個終態。

查看詳情

 

維基百科版本

在數學和計算機科學中,演算法是如何解決一類問題的明確規範。演算法可以執行計算,數據處理和自動推理任務。

作為一種有效的方法,演算法可以在有限的空間和時間內以及用於計算函數的明確定義的形式語言中表達。從初始狀態和初始輸入開始,指令描述了一種計算,當執行時,通過有限個明確定義的連續狀態,最終產生「輸出」和終止於最終結束狀態。

演算法的概念已經存在了幾個世紀。希臘數學家在例如Eratosthenes的篩子中使用演算法來尋找素數,並使用Euclidean演算法來找到兩個數的最大公約數。演算法這個詞本身來自9世紀的數學家MuḥammadibnMūsāal-Khwārizmī,拉丁化的Algoritmi。對於現代演算法概念的部分形式化始於試圖解決大衛希爾伯特於1928年提出的Entscheidungsproblem(決策問題)。後來的形式化被定義為試圖定義「有效可計算性」或「有效方法」 。這些形式化包括1930年,1934年和1935年的Gödel-Herbrand-Kleene遞歸函數,1936年的Alonzo Church的lambda演算,1936年的Emil Post的Formulation 1,以及1936-37和1939年的Alan Turing的圖靈機。

查看詳情

 

實踐類文章(1)

圖靈測試 – The Turing Test

一文看懂圖靈測試和圖靈本人

圖靈測試的初衷是什麼?

圖靈測試的提出是因為圖靈在思考一個問題:機器能否思考?

並且圖靈相信是可以製造出會思考的機器,於是就在想第二個問題:如何判斷機器能否思考?

於是就有了圖靈測試。

這個過程跟科幻小說一樣神奇,不過圖靈就是這麼一個神奇的人,如果感興趣可以繼續往下看。

 

什麼是圖靈測試?

圖靈測試圖解

圖靈測試是在1950年提出的,首次發表於《計算機械和智能》(Computing Machinery and Intelligence)。

讓一個人坐在電腦前,跟另一邊用鍵盤進行對話,如果這個人分不清跟自己對話的是一個人還是一個機器,那麼這個對話機器就通過了圖靈測試並具備人工智慧。

測試標準:聊天時長25分鐘,低於25分鐘的不算通過測試

 

圖靈還對人工智慧的發展給出了非常有益的建議:

與其去研製模擬成人思維的計算機,不如去試著製造更簡單,也許只相當於一個小孩智慧的人工智慧系統,然後再讓這個系統不斷去學習——這種思路正是我們今天用機器學習來解決人工智慧問題的核心指導思想。

圖靈是誰?

艾倫圖靈

圖靈可以說是天才中的天才,他的很多思想影響至今。

 

二戰中的關鍵人物

丘吉爾曾在回憶錄中這樣記載,「圖靈作為破譯了Enigma(恩尼格瑪)密碼機的英雄,他為盟軍最終成功取得第二次世界大戰的勝利做出了最大的貢獻。」

圖靈的破解系統幾分鐘便能破譯德軍的Enigma系統,將英國戰時情報中心每月破譯的情報數量從39000條提升到84000條,讓二戰至少提前結束了幾年。之後,圖靈又破解了德軍高度加密的Tunny密碼,憑藉著強大的破譯機器,德國軍方在二戰期間幾乎所有等級的通信加密系統均被一一破解。

 

計算機奠基人

24歲的圖靈,產生了一個改變世界的構想——圖靈機,寫於他的論文《論數字計算在決斷難題中的應用》,圖靈機可以說是將計算機的基本原理全部構想出來了。

他的通用圖靈機理念——通過改變軟體來實現多重任務執行的抽象計算機——已被肯定為當代計算機的前身,是從第一代陰極管陣列到今天我們所用的各式筆記本電腦的共同「祖先」。

 

同性戀

圖靈愛上了19歲的年輕男孩穆雷,然而1952年,艾倫的同性伴侶穆雷協同一名同謀一起闖進圖靈的房子盜竊,圖靈為此而報警。在警方的幾輪審訓之後,圖靈承認了與穆雷之間的同性戀關係,並被控以「明顯的猥褻和性顛倒行為」罪。

在1952 年3 月的庭審上,艾倫承認了自己的罪名,但他明確表示自己不會為此感到後悔。

 

長跑英國前20

圖靈還是一名天賦異稟的馬拉松跑者,曾經馬拉松最好成績2小時46分。

1946年的8月,34歲的圖靈才參加了他正式訓練後的第一個比賽。那是在他加入的沃爾頓田徑俱樂部後參加的3英里(4.8公里)比賽,圖靈以15分37秒的成績奪得第一。這一成績當年在英國排名第20位。對於一位34歲的跑者而言,這個成績已經相當不俗。

 

人工智慧+圖靈測試

人工智慧就是圖靈在1950年提出的,如果沒有他提出人工智慧這個概念,相信大家不會看到今天這麼多的 AI 發展和應用。

甚至圖靈測試也沿用到了今天。

 

百度百科+維基百科

百度百科版本

圖靈測試(The Turing test)由艾倫·麥席森·圖靈發明,指測試者與被測試者(一個人和一台機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。 進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這台機器就通過了測試,並被認為具有人類智能。

圖靈測試一詞來源於計算機科學和密碼學的先驅阿蘭·麥席森·圖靈寫於1950年的一篇論文《計算機器與智能》,其中30%是圖靈對2000年時的機器思考能力的一個預測,目前我們已遠遠落後於這個預測。

查看詳情

維基百科版本

在圖靈測試,通過開發阿蘭·圖靈於1950年,是一台機器對能力的考驗表現出的智能行為等同於,或從一個人的區別。

圖靈提出,人類評估者會判斷人與機器之間的自然語言對話,旨在產生類似人類的反應。評估者會意識到對話中的兩個夥伴中的一個是機器,並且所有參與者將彼此分開。對話將僅限於純文本通道,例如計算機鍵盤和屏幕,因此結果不依賴於機器將單詞呈現為語音的能力。如果評估人員無法可靠地告訴人機,則說機器已通過測試

。測試結果不依賴於機器對問題給出正確答案的能力,只取決於其答案與人類給出的答案有多接近。 該測試由圖靈在其1950年的論文「 計算機械和智能 」中介紹,同時在曼徹斯特大學工作。它開頭的話是:「我建議考慮這樣一個問題,’機器可以思考嗎?’ 」因為「思考」很難定義,圖靈選擇「用另一個與其密切相關的問題替換另一個問題」。以相對明確的詞語表達。「 圖靈的新問題是:「是否有可以想像的數字電腦在仿製遊戲中表現良好?」 圖靈認為,這個問題實際上是可以回答的問題。

在論文的其餘部分,他反對所有對「機器可以思考」這一命題的主要反對意見。自圖靈首次引入他的測試以來,它已被證明具有很高的影響力和廣泛的批評,並已成為人工智慧哲學中的一個重要概念。

查看詳情

 

擴展閱讀

《Computing Machinery and Intelligence》英文版PDF 模仿遊戲(豆瓣8.6分)

 

弱人工智慧、強人工智慧、超人工智慧

 

弱人工智慧(Weak AI)

弱人工智慧也稱限制領域人工智慧(Narrow AI)或應用型人工智慧(Applied AI),指的是專註於且只能解決特定領域問題的人工智慧。

例如:AlphaGoSiriFaceID

擴展閱讀:

Weak AI ——Wikipedia

Weak AI——Investopedia

 

強人工智慧(Strong AI)

又稱通用人工智慧(Artificial General Intelligence)或完全人工智慧(Full AI),指的是可以勝任人類所有工作的人工智慧。

強人工智慧具備以下能力

  • 存在不確定性因素時進行推理,使用策略,解決問題,制定決策的能力
  • 知識表示的能力,包括常識性知識的表示能力
  • 規劃能力
  • 學習能力
  • 使用自然語言進行交流溝通的能力
  • 將上述能力整合起來實現既定目標的能力

擴展閱讀:

What is the difference between strong-AI and weak-AI?——Stackexchange

 

超人工智慧(Super Intelligence,縮寫 ASI)

假設計算機程序通過不斷發展,可以比世界上最聰明,最有天賦的人類還聰明,那麼,由此產生的人工智慧系統就可以被稱為超人工智慧。

擴展閱讀:

THE MYTH OF A SUPERHUMAN AI——Wired

The Difference Between Artificial Intelligence, General Intelligence, And Super Intelligence——Coresystems

超級智能的致命賭博

機器學習 – machine learning | ML

機器學習、人工智慧、深度學習是什麼關係?

1956 年提出 AI 概念,短短3年後(1959) Arthur Samuel 就提出了機器學習的概念:

Field of study that gives computers the ability to learn without being explicitly programmed.

機器學習研究和構建的是一種特殊演算法(而非某一個特定的演算法),能夠讓計算機自己在數據中學習從而進行預測。

所以,機器學習不是某種具體的演算法,而是很多演算法的統稱。

機器學習包含了很多種不同的演算法,深度學習就是其中之一,其他方法包括決策樹,聚類,貝葉斯等。

深度學習的靈感來自大腦的結構和功能,即許多神經元的互連。人工神經網路(ANN)是模擬大腦生物結構的演算法。

不管是機器學習還是深度學習,都屬於人工智慧(AI)的範疇。所以人工智慧、機器學習、深度學習可以用下面的圖來表示:

人工智慧、機器學習、深度學習的關係
人工智慧、機器學習、深度學習的關係

詳細了解人工智慧:《「2019更新」什麼是人工智慧?(AI的本質+發展史+局限性)

詳細了解深度學習:《一文看懂深度學習(白話解釋+8個優缺點+4個典型演算法)

面向所有人的機器學習科普大全

 

什麼是機器學習?

在解釋機器學習的原理之前,先把最精髓的基本思路介紹給大家,理解了機器學習最本質的東西,就能更好的利用機器學習,同時這個解決問題的思維還可以用到工作和生活中。

機器學習的基本思路

  1. 把現實生活中的問題抽象成數學模型,並且很清楚模型中不同參數的作用
  2. 利用數學方法對這個數學模型進行求解,從而解決現實生活中的問題
  3. 評估這個數學模型,是否真正的解決了現實生活中的問題,解決的如何?

無論使用什麼演算法,使用什麼樣的數據,最根本的思路都逃不出上面的3步!

機器學習的基本思路
機器學習的基本思路

當我們理解了這個基本思路,我們就能發現:

不是所有問題都可以轉換成數學問題的。那些沒有辦法轉換的現實問題 AI 就沒有辦法解決。同時最難的部分也就是把現實問題轉換為數學問題這一步。

 

機器學習的原理

下面以監督學習為例,給大家講解一下機器學習的實現原理。

假如我們正在教小朋友識字(一、二、三)。我們首先會拿出3張卡片,然後便讓小朋友看卡片,一邊說「一條橫線的是一、兩條橫線的是二、三條橫線的是三」。

機器學習原理說明1

不斷重複上面的過程,小朋友的大腦就在不停的學習。

機器學習原理說明2

當重複的次數足夠多時,小朋友就學會了一個新技能——認識漢字:一、二、三。

機器學習原理說明3

我們用上面人類的學習過程來類比機器學習。機器學習跟上面提到的人類學習過程很相似。

  • 上面提到的認字的卡片在機器學習中叫——訓練集
  • 上面提到的「一條橫線,兩條橫線」這種區分不同漢字的屬性叫——特徵
  • 小朋友不斷學習的過程叫——建模
  • 學會了識字後總結出來的規律叫——模型

通過訓練集,不斷識別特徵,不斷建模,最後形成有效的模型,這個過程就叫「機器學習」!

機器學習原理說明4

 

監督學習、非監督學習、強化學習

機器學習根據訓練方法大致可以分為3大類:

  1. 監督學習
  2. 非監督學習
  3. 強化學習

除此之外,大家可能還聽過「半監督學習」之類的說法,但是那些都是基於上面3類的變種,本質沒有改變。

 

監督學習

監督學習是指我們給演算法一個數據集,並且給定正確答案。機器通過數據來學習正確答案的計算方法。

舉個栗子:

我們準備了一大堆貓和狗的照片,我們想讓機器學會如何識別貓和狗。當我們使用監督學習的時候,我們需要給這些照片打上標籤。

將打好標籤的照片用來訓練
將打好標籤的照片用來訓練

我們給照片打的標籤就是「正確答案」,機器通過大量學習,就可以學會在新照片中認出貓和狗。

當機器遇到新的小狗照片時就能認出他
當機器遇到新的小狗照片時就能認出他

這種通過大量人工打標籤來幫助機器學習的方式就是監督學習。這種學習方式效果非常好,但是成本也非常高。

了解更多關於 監督學習

 

非監督學習

非監督學習中,給定的數據集沒有「正確答案」,所有的數據都是一樣的。無監督學習的任務是從給定的數據集中,挖掘出潛在的結構。

舉個栗子:

我們把一堆貓和狗的照片給機器,不給這些照片打任何標籤,但是我們希望機器能夠將這些照片分分類。

將不打標籤的照片給機器
將不打標籤的照片給機器

通過學習,機器會把這些照片分為2類,一類都是貓的照片,一類都是狗的照片。雖然跟上面的監督學習看上去結果差不多,但是有著本質的差別:

非監督學習中,雖然照片分為了貓和狗,但是機器並不知道哪個是貓,哪個是狗。對於機器來說,相當於分成了 A、B 兩類。

機器可以將貓和狗分開,但是並不知道哪個是貓,哪個是狗
機器可以將貓和狗分開,但是並不知道哪個是貓,哪個是狗
了解更多關於 非監督學習

 

強化學習

強化學習更接近生物學習的本質,因此有望獲得更高的智能。它關注的是智能體如何在環境中採取一系列行為,從而獲得最大的累積回報。通過強化學習,一個智能體應該知道在什麼狀態下應該採取什麼行為。

最典型的場景就是打遊戲。

2019年1月25日,AlphaStar(Google 研發的人工智慧程序,採用了強化學習的訓練方式) 完虐星際爭霸的職業選手職業選手「TLO」和「MANA」。新聞鏈接

了解更多關於 強化學習

 

機器學習實操的7個步驟

通過上面的內容,我們對機器學習已經有一些模糊的概念了,這個時候肯定會特別好奇:到底怎麼使用機器學習?

機器學習在實際操作層面一共分為7步:

  1. 收集數據
  2. 數據準備
  3. 選擇一個模型
  4. 訓練
  5. 評估
  6. 參數調整
  7. 預測(開始使用)
機器學習的7個步驟
機器學習的7個步驟

假設我們的任務是通過酒精度和顏色來區分紅酒和啤酒,下面詳細介紹一下機器學習中每一個步驟是如何工作的。

案例目標:區分紅酒和啤酒
案例目標:區分紅酒和啤酒

 

步驟1:收集數據

我們在超市買來一堆不同種類的啤酒和紅酒,然後再買來測量顏色的光譜儀和用於測量酒精度的設備。

這個時候,我們把買來的所有酒都標記出他的顏色和酒精度,會形成下面這張表格。

顏色 酒精度 種類
610 5 啤酒
599 13 紅酒
693 14 紅酒

這一步非常重要,因為數據的數量和質量直接決定了預測模型的好壞。

 

步驟2:數據準備

在這個例子中,我們的數據是很工整的,但是在實際情況中,我們收集到的數據會有很多問題,所以會涉及到數據清洗等工作。

當數據本身沒有什麼問題後,我們將數據分成3個部分:訓練集(60%)、驗證集(20%)、測試集(20%),用於後面的驗證和評估工作。

數據要分為3個部分:訓練集、驗證集、測試集
數據要分為3個部分:訓練集、驗證集、測試集

關於數據準備部分,還有非常多的技巧,感興趣的可以看看《AI 數據集最常見的6大問題(附解決方案)

 

步驟3:選擇一個模型

研究人員和數據科學家多年來創造了許多模型。有些非常適合圖像數據,有些非常適合於序列(如文本或音樂),有些用於數字數據,有些用於基於文本的數據。

在我們的例子中,由於我們只有2個特徵,顏色和酒精度,我們可以使用一個小的線性模型,這是一個相當簡單的模型。

 

步驟4:訓練

大部分人都認為這個是最重要的部分,其實並非如此~ 數據數量和質量、還有模型的選擇比訓練本身重要更多(訓練知識台上的3分鐘,更重要的是台下的10年功)。

這個過程就不需要人來參與的,機器獨立就可以完成,整個過程就好像是在做算術題。因為機器學習的本質就是將問題轉化為數學問題,然後解答數學題的過程

 

步驟5:評估

一旦訓練完成,就可以評估模型是否有用。這是我們之前預留的驗證集和測試集發揮作用的地方。評估的指標主要有 準確率、召回率、F值。

這個過程可以讓我們看到模型如何對尚未看到的數是如何做預測的。這意味著代表模型在現實世界中的表現。

 

步驟6:參數調整

完成評估後,您可能希望了解是否可以以任何方式進一步改進訓練。我們可以通過調整參數來做到這一點。當我們進行訓練時,我們隱含地假設了一些參數,我們可以通過認為的調整這些參數讓模型表現的更出色。

 

步驟7:預測

我們上面的6個步驟都是為了這一步來服務的。這也是機器學習的價值。這個時候,當我們買來一瓶新的酒,只要告訴機器他的顏色和酒精度,他就會告訴你,這時啤酒還是紅酒了。

YouTube 上有一個視頻介紹了這7個步驟 The 7 Steps of Machine Learning(需要科學上網)

15種經典機器學習演算法

ner“>

演算法 訓練方式
線性回歸 監督學習
邏輯回歸 監督學習
線性判別分析 監督學習
決策樹 監督學習
樸素貝葉斯 監督學習
K鄰近 監督學習
學習向量量化 監督學習
支持向量機 監督學習
隨機森林 監督學習
AdaBoost 監督學習
高斯混合模型 非監督學習
限制波爾茲曼機 非監督學習
K-means 聚類 非監督學習
最大期望演算法 非監督學習

面向所有人的機器學習科普大全

 

百度百科+維基百科

百度百科版本

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。

專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。 它是人工智慧的核心,是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。

查看詳情

 

維基百科版本

機器學習是利用計算機演算法和統計模型是計算機系統使用,逐步提高完成特定任務的能力。

機器學習建立樣本數據的數學模型,稱為「 訓練數據 」,以便在不明確編程以執行任務的情況下進行預測或決策。機器學習演算法用於電子郵件過濾,網路入侵者檢測和計算機視覺的應用,開發用於執行任務的特定指令的演算法是不可行的。機器學習與計算統計密切相關,計算統計側重於使用計算機進行預測。數學優化的研究為機器學習領域提供了方法,理論和應用領域。數據挖掘是機器學習中的一個研究領域,側重於通過無監督學習進行探索性數據分析。在跨業務問題的應用中,機器學習也被稱為預測分析。

查看詳情

 

補充資料2:優質擴展閱讀

人工智慧 – Artificial intelligence | AI

理解人工智慧的本質

人工智慧(AI)已經走入了普通大眾的視野,我們在生活中可以看到很多跟 AI 相關的產品。比如 Siri、AI 美顏、AI 換臉…

雖然大家聽得多,但是大部分人並不了解 AI,甚至存在一些誤解。本文將不涉及任何技術細節,幫助所有人理解人工智慧的本質。

 

什麼是人工智慧?

很多人對人工智慧都會存在一些誤解:

  1. 電影里的機器人就是人工智慧的典型代表
  2. 人工智慧好像是無所不能的
  3. 人工智慧未來會威脅到人類的生存
  4. ……

大家之所以對人工智慧存在很多誤解,主要是因為大家只是看到一些人的言論,但是並不了解 AI 的基本原理,本文就幫助大家理解 AI 的基本原理,事物的本質往往並沒有大家說的那麼複雜。

我們用傳統軟體和人工智慧進行比較,有了參照系就更容易理解一些。

 

傳統軟體 VS 人工智慧


傳統軟體

傳統軟體是「if-then」的基本邏輯,人類通過自己的經驗總結出一些有效的規則,然後讓計算機自動的運行這些規則。傳統軟體永遠不可能超越人類的知識邊界,因為所有規則都是人類制定的。

簡單的說:傳統軟體是「基於規則」的,需要人為的設定條件,並且告訴計算機符合這個條件後該做什麼。

這種邏輯在處理一些簡單問題時非常好用,因為規則明確,結果都是可預期的,程序員就是軟體的上帝。

但是現實生活中充滿了各種各樣的複雜問題,這些問題幾乎不可能通過制定規則來解決,比如人臉識別通過規則來解決效果會很差。

傳統軟體是基於規則的邏輯

人工智慧

人工智慧現在已經發展出很多不同分支,技術原理也多種多樣,這裡只介紹當下最火的深度學習。

深度學習的技術原理跟傳統軟體的邏輯完全不同:

機器從「特定的」大量數據中總結規律,歸納出某些「特定的知識」,然後將這種「知識」應用到現實場景中去解決實際問題。

這就是人工智慧發展到現階段的本質邏輯。而人工智慧總結出來的知識並不是像傳統軟體一樣,可以直觀精確的表達出來。它更像人類學習到的知識一樣,比較抽象,很難表達。

人工智慧邏輯:從數據中歸納知識

上面的說法還是比較抽象,下面通過幾個方面來幫助大家徹底搞明白:

 

人工智慧是一種工具

AI 跟我們使用的鎚子、汽車、電腦……都一樣,其本質都是一種工具。

工具必須有人用才能發揮價值,如果他們獨立存在是沒有價值的,就想放在工具箱里的鎚子一樣,沒有人揮舞它就沒有任何價值。

人工智慧本質是一種工具

人工智慧這種工具之所以全社會都在說,是因為它大大擴展了傳統軟體的能力邊界。之前有很多事情計算機是做不了的,但是現在人工智慧可以做了。

歸功於摩爾定律,計算機的能力呈指數級的上漲,只要是計算機能解參與的環節,生產力都得到了大幅提升,而人工智慧讓更多的環節可以搭上摩爾定律的快車,所以這種改變是意義非凡的。

但是不管怎麼變,傳統軟體和人工智慧都是工具,是為了解決實際問題而存在的。這點並沒有變化。

 

人工智慧只解決特定問題

《終結者》《黑客帝國》…很多電影里都出現了逆天的機器人,這種電影讓大家有一種感覺:人工智慧好像是無所不能的。

實際情況是:現在的人工智還處在單一任務的階段。

人工智慧目前只能處理單一任務

單一任務的模式。

打電話用座機、玩遊戲用遊戲機、聽音樂用MP3、開車用導航…

多任務模式

這個階段類似智能手機,在一台手機上可以安裝很多 App,做很多事情。

但是這些能力還是相互獨立的,在旅行App上定好機票後,需要自己用鬧鐘App定鬧鐘,最後需要自己用打車App叫車。多任務模式只是單一任務模式的疊加,離人類智慧還差的很遠。

融會貫通

你在跟朋友下圍棋,你發現朋友的心情非常不好,你本來可以輕鬆獲勝,但是你卻故意輸給了對方,還不停的誇讚對方,因為你不想讓這個朋友變得更鬱悶,更煩躁。

在這件小事上,你就用到了多種不同的技能:情緒識別、圍棋技能、交流溝通、心理學…

但是大名鼎鼎的 AlphaGo 絕對不會這麼做。不管對方處在什麼情況下,哪怕輸了這盤棋會喪命,AlphaGo 也會無情的贏了這場比賽,因為它除了下圍棋啥都不會!

只有將所有的知識形成網狀結構,才能做到融會貫通。例如:商業領域可以運用軍事上的知識,經濟學也可以用到生物學的知識。

 

知其然,但不知所以然

當下的人工智慧是從大量數據中總結歸納知識,這種粗暴的「歸納法」有一個很大的問題是:

並不關心為什麼

人工智慧不關心為什麼

龐氏騙局類的詐騙手段就充分利用了這一點!

  • 它利用超高的回報來吸引韭菜,然後讓早起參與的所有人都轉到錢;
  • 當旁觀者發現所有參與者都真實賺到了錢,就簡單的歸納為:歷史經驗說明這個靠譜。
  • 於是越來越多的人眼紅,加入,直到有一天騙子跑路。

當我們用邏輯來推導一下這個事情就能得出騙子的結論:

  • 這麼高的回報並不符合市場規律
  • 穩賺不賠?我不需要承擔高回報的高風險?好像不太合理
  • 為什麼這麼好的事情會落在我頭上?好像不太對勁

正是因為當下的人工智慧是建立在「歸納邏輯」上的,所以也會犯很低級的錯誤

人工只能也會犯低級錯誤

  • 左:摩托車的遮擋讓 AI 把一隻猴子誤認為人類。
  • 中:自行車的遮擋讓 AI 把猴子誤認為人類,同時叢林背景導致 AI 將自行車把手誤認為是鳥。
  • 右:吉他把猴子變成了人,而叢林把吉他變成了鳥

上圖顯示了在一張叢林猴子的照片中 ps 上一把吉他的效果。這導致深度網路將猴子誤認為人類,同時將吉他誤認為鳥,大概是因為它認為人類比猴子更可能攜帶吉他,而鳥類比吉他更可能出現在附近的叢林中。

也正是因為歸納邏輯,所以需要依賴大量的數據。數據越多,歸納出來的經驗越具有普適性。

 

人工智慧的發展歷史

AI 不是什麼全新的東西,他已經發展了大幾十年了!下面我們介紹一下最具代表性的3個發展階段。

人工智慧發展歷史

上圖是從1950年至2017年之間,人工智慧領域出現的一些里程碑式的事件。總結下來會分為3大階段:

第一次浪潮(非智能對話機器人)

20世紀50年代到60年代

1950年10月,圖靈提出了人工智慧(AI)的概念,同時提出了圖靈測試來測試 AI。

圖靈測試提出沒有幾年,人們就看到了計算機通過圖靈測試的「曙光」。

1966年,心理治療機器人 ELIZA 誕生

那個年代的人對他評價很高,有些病人甚至喜歡跟機器人聊天。但是他的實現邏輯非常簡單,就是一個有限的對話庫,當病人說出某個關鍵詞時,機器人就回復特定的話。

第一次浪潮並沒有使用什麼全新的技術,而是用一些技巧讓計算機看上去像是真人,計算機本身並沒有智能。

 

第二次浪潮(語音識別)

20世紀80年代到90年代

在第二次浪潮中,語音識別是最具代表性的幾項突破之一。核心突破原因就是放棄了符號學派的思路,改為了統計思路解決實際問題。

在《人工智慧》一書中,李開復詳細介紹了這個過程,他也是參與其中的重要人物之一。

第二次浪潮最大的突破是改變了思路,摒棄了符號學派的思路,轉而使用了統計學思路解決問題。

 

第三次浪潮(深度學習+大數據)

21世紀初

2006年是深度學習發展史的分水嶺。傑弗里辛頓在這一年發表了《一種深度置信網路的快速學習演算法》,其他重要的深度學習學術文章也在這一年被發布,在基本理論層面取得了若干重大突破。

之所以第三次浪潮會來主要是2個條件已經成熟:

2000年後互聯網行業飛速發展形成了海量數據。同時數據存儲的成本也快速下降。使得海量數據的存儲和分析成為了可能。

GPU 的不斷成熟提供了必要的算力支持,提高了演算法的可用性,降低了算力的成本。

深度學習是當下的主流技術

在各種條件成熟後,深度學習發揮出了強大的能力。在語音識別、圖像識別、NLP等領域不斷刷新紀錄。讓 AI 產品真正達到了可用(例如語音識別的錯誤率只有6%,人臉識別的準確率超過人類,BERT在11項表現中超過人類…)的階段。

第三次浪潮來襲,主要是因為大數據和算力條件具備,這樣深度學習可以發揮出巨大的威力,並且 AI 的表現已經超越人類,可以達到「可用」的階段,而不只是科學研究。

人工智慧3次浪潮的不同之處

  1. 前兩次熱潮是學術研究主導的,第三次熱潮是現實商業需求主導的。
  2. 前兩次熱潮多是市場宣傳層面的,而第三次熱潮是商業模式層面的。
  3. 前兩次熱潮多是學術界在勸說政府和投資人投錢,第三次熱潮多是投資人主動向熱點領域的學術項目和創業項目投錢。
  4. 前兩次熱潮更多時提出問題,第三次熱潮更多時解決問題。

想進一步了解 AI 的歷史,推薦閱讀李開復的《人工智慧》,上面關於3次浪潮的內容都摘抄自這本書。

 

人工智慧不能做什麼?

人工智慧的3個級別

在探尋 AI 的邊界時,我們可以先簡單粗暴的把 AI 分為3個級別:

  1. 弱人工智慧
  2. 強人工智慧
  3. 超人工智慧

人工智慧的3個級別:弱人工智慧、強人工智慧、超人工智慧

弱人工智慧

弱人工智慧也稱限制領域人工智慧(Narrow AI)或應用型人工智慧(Applied AI),指的是專註於且只能解決特定領域問題的人工智慧。

例如:AlphaGo、Siri、FaceID……

強人工智慧

又稱通用人工智慧(Artificial General Intelligence)或完全人工智慧(Full AI),指的是可以勝任人類所有工作的人工智慧。

強人工智慧具備以下能力:

  • 存在不確定性因素時進行推理,使用策略,解決問題,制定決策的能力
  • 知識表示的能力,包括常識性知識的表示能力
  • 規劃能力
  • 學習能力
  • 使用自然語言進行交流溝通的能力
  • 將上述能力整合起來實現既定目標的能力

超人工智慧

假設計算機程序通過不斷發展,可以比世界上最聰明,最有天賦的人類還聰明,那麼,由此產生的人工智慧系統就可以被稱為超人工智慧。

我們當前所處的階段是弱人工智慧,強人工智慧還沒有實現(甚至差距較遠),而超人工智慧更是連影子都看不到。所以「特定領域」目前還是 AI 無法逾越的邊界。

 

人工智慧的能力邊界是什麼?

如果在深入一點,從理論層面來解釋 AI 的能力邊界,就要把圖靈大師搬出來了。圖靈在上世紀30年代中期,就在思考3個問題:

  1. 世界上是否所有數學問題都有明確的答案?
  2. 如果有明確的答案,是否可以通過有限的步驟計算出答案?
  3. 對於那些有可能在有限步驟計算出來的數學問題,能否有一種假象的機械,讓他不斷運動,最後當機器停下來的時候,那個數學問題就解決了?

圖靈還真設計出來一套方法,後人稱它為圖靈機。今天所有的計算機,包括全世界正在設計的新的計算機,從解決問題的能力來講,都沒有超出圖靈機的範疇。

(大家都是地球人,差距怎麼就這麼大呢???)

通過上面的3個問題,圖靈已經划出了界限,這個界限不但適用於今天的 AI ,也適用於未來的 AI 

下面我們再進一步把邊界清晰的描述一下:

人工智慧的能力邊界

  1. 世界上有很多問題,只有一小部分是數學問題
  2. 在數學問題里,只有一小部分是有解的
  3. 在有解的問題中,只有一部分是理想狀態的圖靈機可以解決的
  4. 在後一部分(圖靈機可解決的部分),又只有一部分是今天的計算機可以解決的
  5. 而 AI 可以解決的問題,又只是計算機可以解決問題的一部分。

擔心人工智慧太強大?你想多了!

在一些特定場景中, AI 可以表現的很好,但是在大部分場景中,AI 並沒有什麼用。

 

人工智慧會讓你失業嗎?

這個問題是大家最關心的問題,也是對每一個個體影響最大的問題。所以單獨拿出來說一下。

首先,人工智慧替代「部分人類的行為」是必然的趨勢

每一項新技術或者新發明都會替代一部分勞動力:

報時間的工作——表

拉人力車的工作——汽車

挖井的工作——鑽進機

……

需要注意的是,科技替代的只是某些特定的工作。挖井機只能幫你挖洞,但是無法幫你判斷應該在哪裡挖洞。

人工智慧也是如此,它並不是針對某些職業或者某些人,而是替代一些具體的勞動行為。

其次,失業的同時會出現更好新職業

幾次技術革命的歷史告訴我們,雖然新技術的出現導致了部分人失業,但是同時也會產生很多新的職業。被替代的工作往往是低效的,而創造出來的工作往往更高效。想想拉人力車,再想想開汽車。

當人工智慧解放了一部分勞動力,這部分勞動力就可以做更有價值,更有意思的事情。

不要怕!用好 AI 是一種超級技能

上文說過2個觀點:

  1. 人工智慧的本質是工具,需要人來用它
  2. 人工智慧替代的不是人,而是某些工作環節

所以,千萬不要怕人工智慧取代自己,你應該主動去學習AI,成為最早會用AI的人,成為能把AI用好的人

想想20年前會使用電腦和網路的人,他們在那時代是非常稀缺的,所以他們賺到了互聯網時代的紅利。同樣的道理,智能時代的紅利將屬於會用AI的人。

 

哪些工作會被人工智慧替代?

李開復提出過一個判斷依據:

如果一項工作,它做決策的時間在 5 秒鐘以內,那麼大概率是會別人工智慧取代的。

容易被人工智慧替代的4個工作特徵

這種工作有4個特點:

  1. 做決策所需要的信息量不大
  2. 做決策的過程並不複雜,邏輯簡單
  3. 能獨自完成,不需要協作
  4. 重複性工作

很難被人工智慧替代的技能

科學家總結出了3個人工智慧很難替代的技能:

  1. 社交智慧(洞察力、談判技巧、同理心…)
  2. 創造力(原創力、藝術審美…)
  3. 感知和操作能力(手指靈敏度、協調操作能力、應付複雜環境的能力…)

 

如何迎接智能時代?

人工智慧將像工業時代一樣,席捲全球。這種情況下,我們要做的不是逃避,而是擁抱這種變化。下面給大家一些具體的建議:

  1. 了解智能時代的底層邏輯和基本原理,不需要學習寫代碼,但是需要知道可能會發生什麼,不可能發生什麼。
  2. 人工智慧未來將像計算機一樣滲透到各行各業,你要盡量了解人工智慧,學習如何利用他解決現有的問題,成為早期使用人工智慧的人。
  3. 做好職業規劃。不要選擇三無職業(不需要社交、不需要創造力、不需要強感知和操作能力)

 

總結

人工智慧的基本原理:機器從「特定的」大量數據中總結規律,形成某些「特定的知識」,然後將這種「知識」應用到現實場景中去解決實際問題。

在這個基本原理的基礎上,有3個特徵:

  1. 人工智慧本質上是一種工具
  2. 人工智慧技能只能解決特定的問題,而不是什麼都能做
  3. 人工智慧屬於歸納邏輯,可以告訴你是什麼,但是不能告訴你為什麼

 

到目前為止,人工智慧經歷了3次浪潮:

  1. 20世紀50年代到60年代:非智能對話機器人
  2. 20世紀80年代到90年代:語音識別
  3. 21世紀初:深度學習+大數據

 

人工智慧分為3個級別:

  1. 弱人工智慧
  2. 強人工智慧
  3. 超人工智慧

 

在失業問題上,人工智慧的確會替代部分人類的工作,不過在替代的同時也會出現一些新的更有價值的工作。未來不容易被人工智慧替代的技能有3點:

  1. 社交智慧(洞察力、談判技巧、同理心…)
  2. 創造力(原創力、藝術審美…)
  3. 感知和操作能力(手指靈敏度、協調操作能力、應付複雜環境的能力…)

 

「附」2020 AI 發展趨勢

先回顧一下人工智慧在 2019 年發生的重要變化:

  1. NLP 領域發生了重要的進展,BERT、GPT-2、XLNET 等預訓練模型已經在產品中發揮重要作用。
  2. 基礎建設進一步完善:PyTorch 的增長速度非常快,TensorFlow 深度結合 Keras。
  3. GAN 快速發展,出現了大眾類的產品。DeepFake、ZAO 讓大眾群體體驗到了 GAN 技術。
  4. 也是因為 DeepFake,人工智慧的社會影響被大家所關注,全球都在完善 AI 相關的法律
  5. Auto-ML 降低了 AI 的門檻,讓人工智慧的部署變得非常容易。

2020年的發展趨勢是什麼?

  1. 5G 的落地將更多物理世界數字化,將進一步推動 AI 的發展和普及。
  2. 數據科學團隊和商業團隊的融合會更加緊密。
  3. 有可能看到多任務AI模型的發展,向通用人工智慧進一步。
  4. 擺脫對數據的依賴,使用更少的數據獲得效果優異的模型。
  5. NLP 領域實現更大的突破和發展。
  6. 提高 AI 的可解釋性,解決黑箱問題
  7. 社會問題加劇,個人數據安全、隱私、演算法偏見等問題的討論越來越多。

更多2019年的重要里程碑和2020年的發展趨勢可以看看下面2篇文章:

人工智慧、機器學習、深度學習在2019年的重要發展和2020的趨勢(技術篇)

人工智慧、機器學習、深度學習在2019年的重要發展和2020的趨勢(研究篇)

 

百度百科+維基百科

百度百科版本
人工智慧(Artificial Intelligence),英文縮寫為AI。它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
更多內容
維基百科版本
在計算機科學中,人工智慧有時也稱為機器智能,是機器所展示的智能。
更多內容