本文轉載自公眾號 人工智慧學家,原文地址
我準備寫一篇預測未來一年的AI晶元,以及英偉達如何應對挑戰的文章,但我很快意識到,文章要比我預期的要長得多。由於有很多內容要介紹,我決定把文章分為3個部分。
第1部分:簡介,以及分析想要挑戰英偉達的大公司:英特爾、AMD、谷歌、賽靈思、蘋果、高通。
第2部分:創業公司與中國公司,以及他們可能扮演的角色。第3部分:英偉達抵禦潛在競爭對手的策略。
第3部分:英偉達抵禦潛在競爭對手的策略。
1、簡介
在過去五年中,英偉達將其數據中心業務發展成為一個價值數十億美元的巨頭,卻從未遇到過一個像樣的競爭對手。這是一個驚人的事實,在我的記憶中,這在當今的科技世界是無與倫比的。這種快速增長的動力主要來自對人工智慧(AI)和高性能計算(HPC)的快速GPU晶元的需求。英偉達首席執行官Jensen Huang喜歡談論深度學習領域的「寒武紀大爆發」,特別指的是神經網路演算法創新的快速步伐。我們將在第3部分中討論這對英偉達的意義,但我選擇借用這個概念作為本系列的標題。我們正處於全球許多大型和小型公司的專業AI晶元爆發的門口。三年前,晶元初創企業幾乎不可能獲得風險投資。而現在,有數十家資金充足的挑戰者在為人工智慧構建晶元。
去年,英偉達和IBM 達到了計算的頂峰,他們宣布為世界上最快的超級計算機——美國能源部橡樹嶺國家實驗室(ORNL)的Summit超級計算機(約95%的性能歸功於英偉達的Volta GPU)提供動力。儘管這是一項令人難以置信的成就,但許多人開始懷疑,對於英偉達來說,整個童話故事能否持續下去。
根據最新的季度報告,英偉達數據中心收入同比增長58%至7.92億美元,占公司總收入的近25%。在過去4個季度中,這一數字總計為28.6億美元。如果該公司能保持這種增長,到2019年,數據中心的收入將達到45億美元。這聽起來像天堂,或者至少是地球上的天堂,對吧?
毫無疑問,英偉達在其強大的可擴展架構願景的推動下,打造出了卓越的產品。英偉達現在擁有一個由軟體、大學、初創企業和合作夥伴組成的強大和自我維持的生態系統,這些夥伴使它成為自己創建的新世界的主人。雖然有些人會認為,這一生態系統創造了一條不可逾越的護城河,但烏雲現在正出現在地平線上。潛在的威脅來自英特爾、谷歌、AMD以及數十家美國和中國的初創企業,它們都被炙手可熱的人工智慧所吸引。
到目前為止,在我看來,競爭主要是小打小鬧。競爭對手已經發布了幾十項聲明,但我非常確信,除了谷歌之外,沒有一家公司實際上從英偉達的金庫中獲得了任何收入。讓我們看看目前的競爭格局,看看2019年將會是什麼樣子。
大型挑戰者
儘管統計有40多家初創公司進入了這一領域,但讓我們現實一點:只有少數公司才能真正在這個市場上取得成功(比如收入超過10億美元)。在深度神經網路的訓練方面,考慮到英偉達的產品、安裝基礎和無處不在的生態系統的強大,英偉達很難被擊敗。然而,目前規模相當小的推理市場最終將超過訓練市場的總收入。與訓練不同,推理不是單一的市場。它由雲端和邊緣的大量數據類型和相關的優化深度學習演算法組成,每種演算法都具有特定的性能、功耗和延遲要求。此外,在推理市場中沒有巨無霸,即使在英偉達聲稱擁有領導地位的汽車市場也是如此。由於這些原因,推理是大多數新進入者主要或最先關注的領域。讓我們看看那些正在爭奪席位的大公司。
谷歌
最早證明專用晶元(稱為ASIC,或特定於應用的集成電路)可以對抗更可編程、更通用的用於深度學習的GPU的公司之一是谷歌。巧合的是,谷歌可能是英偉達最大的客戶之一。正如我之前所述,谷歌現在已經發布了四款「Tensor Processing Units」(TPU),這些晶元和電路板可以加速雲中的深度學習訓練和推理處理,最近還用於邊緣雲。谷歌的TPU用於訓練和處理深度神經網路的性能相當可靠,每塊晶元每秒可提供多達45萬億次操作(TOPS)。相比之下,英偉達的Volta最高可達125 TOPS。谷歌最初的兩個TPU實際上是供內部使用和吹噓的,但Google現在將它們作為一種服務提供給其在Google Compute Cloud上的雲客戶。
儘管TPU無疑對谷歌的人工智慧舉措起到了推動作用,但它們服務於谷歌內部使用案例(當然,這是一個相當大的市場)之外的市場卻是有意受到限制的。TPU只能用於訓練和運行谷歌TensorFlow AI框架; 你不能用它來訓練或運行用Apache MxNet或PyTorch構建的AI(這兩個是Facebook和微軟支持的快速增長的AI框架)。它們也不能用於GPU佔主導地位的非AI HPC應用。此外,你不能購買TPU用於企業或政府數據中心和伺服器中的內部計算。但谷歌並不介意這一切,因為它認為TPU和TensorFlow對其人工智慧的整體領導地位具有戰略意義。針對硬體進行優化的軟體和針對軟體進行優化的硬體可以構建強大而持久的平台。
TPU的更直接的影響可能是驗證ASIC概念可以作為GPU的替代方案,至少對潛在的投資者來說是這樣。一家深度學習晶元初創公司的首席執行官和我分享了這樣的經歷:在谷歌宣布其TPU之後,風險資本開始自由流動。他隨後籌集到了數億美元。
谷歌一直善於從英偉達在GPU技術大會(通常是在3月份)上發布的可預測的聲明中搶得一些風頭,我不會驚訝於看到谷歌今年再次亮相,或許會帶來一款性能數據引人注目的7納米TPU產品。
亞馬遜網路服務公司(Amazon Web Services)也不甘落後,公司去年秋天宣布,它也正在構建一個用於推理處理的定製ASIC。然而,該晶元仍在開發中,公司沒有分享任何有關設計或可用性的細節。
英特爾
這變得有點複雜了,因為英特爾是大公司,同時在做很多工作,雖然英特爾打算在「2019年末」與Nervana晶元競爭人工智慧訓練和推理,但它意識到,推理將成為一個更大的市場,並有非常強大的影響力。除了Xeon CPU(最近更新後,推理性能得到顯著提升)之外,英特爾還收購了MobileEye和Movidius,分別用於汽車和嵌入式推理處理。我看過這兩種設備的演示,它們確實令人印象深刻。英特爾還投資了一個名為DB2OpenVino的Run-Anywhere軟體棧,它允許開發人員在任何地方進行訓練,然後在一切英特爾處理器上進行優化和運行,非常令人驚艷。
在拉斯維加斯舉行的CES會議上,英特爾透露,它正在與Facebook就Nervana神經網路處理器(NNP-I)的推理版本密切合作,這令人驚訝,因為許多人預測Facebook正在開發自己的推理加速器。
與此同時,英特爾副總裁兼人工智慧產品總經理Naveen Rao在Twitter上分享說,NNP-I將是一個SOC(片上系統),在英特爾10納米晶圓廠製造,並將包括IceLake x86核心。Rao表示,這將是英特爾未來的一個共同主題,可能是指未來用於台式機和筆記本電腦的X86/GPU晶元,類似於AMD的APU。
在訓練方面,英特爾最初的計劃是在收購Nervana一年後的2017年發布一款名為「Lake Crest」Nervana NNP的產品。然後它拖到了2018年……最終,公司決定重新開始。這不太可能是因為Nervana完成的第一部分不好,相反,英特爾意識到,該器件的性能不足以大幅超過英偉達和它添加到Volta和後續GPU中的TensorCores。我想,當英偉達公布它在7nm工藝上製造的任何令人驚艷的新產品時,我們將再次看到相同劇本的上演,但這有些想太遠了。
高通和蘋果
為了完整起見,我將這兩家公司包括在內,因為它們都專註於在手機(以及高通的物聯網設備和自動駕駛汽車)上提供令人印象深刻的人工智慧能力。當然,蘋果專註於iPhone的A系列CPU和支持手機AI的IOS操作系統。隨著手機成為語音和圖像處理領域的人工智慧推理的主導平台,這兩家公司擁有大量可以用來確立領導地位的IP(儘管華為也在大力推動人工智慧,我們將在第2部分介紹)。
AMD
在過去的三年里,AMD一直在努力讓它的AI的軟體工作室正常運轉。我2015年在那裡工作時,如果不啟動Windows,你甚至不能在Linux伺服器上運行它的GPU。從那時起,公司已經取得了長足的進步,ROCm軟體和編譯器簡化了從CUDA的遷移,MlOpen(不要與OpenML混淆)加速了晶元上的數學庫。然而,目前AMD的GPU仍然至少比英偉達V100的AI版本落後一代,而且V100已經接近兩年的歷史了。AMD如何在7 nm上與英偉達 TensorCores競爭仍有待觀察。
賽靈思
毫無疑問,可編程邏輯器件(FPGA)的領先供應商賽靈思在2018年的表現非常出色。除了宣布7nm的下一代架構外,它還在微軟、百度、亞馬遜、阿里巴巴、戴姆勒賓士等公司的設計中取得了重大勝利。在人工智慧推理處理中,FPGA比ASIC有明顯的優勢,因為它們可以為手頭的特定工作動態地重新配置。當底層技術正在快速變化時,這一點非常重要,就像人工智慧的情況一樣。例如,微軟展示了它的FPGA(現在來自賽靈思和英特爾)如何在深度神經網路中對特定層使用1位、3位或幾乎任何精度的數學計算。這可能就像獃子一樣,但這可以大大加快處理速度並減少延遲,同時使用更少的功率。此外,即將推出的賽靈思7nm晶元稱為Versal,它具有AI和DSP引擎,可加速特定應用程序的處理,同時具有可適配的邏輯陣列。Versal將在今年的某個時候開始發貨,我認為它可能會改變推理處理的遊戲規則。
2、初創公司
這是關於人工智慧晶元市場狀況,以及2019年將會發生什麼的三篇文章中的第二篇。今年將是新晶元和基準之戰的盛宴,領頭的是我在第一篇博客中提到的大公司(英特爾、谷歌、AMD、賽靈思、蘋果、高通),此外,還有數十家矽谷初創公司和中國獨角獸的估值超過10億美元。在這一節中,我將介紹西方和中國最著名的初創公司,或者至少是呼聲最高的初創公司,中國政府正致力於打造本土的人工智慧晶元產業。我們將從Wave開始,它似乎是第一個將晶元用於訓練的公司。
Wave Computing
Wave Computing經歷了一個多事的2018年,它推出了第一個數據流處理單元,收購了MIPS,創建了MIPS Open,並將它的第一個早期系統交付給了一些幸運的客戶。雖然Wave架構有一些非常有趣的特性,我將在這裡深入探討,但是我們正在等待大規模實際工作負載的客戶體驗信息。
Wave不是連接到伺服器的加速器;它是用於圖形計算的獨立處理器。這種方法有優點也有缺點。從好的方面來說,Wave不會受到GPU等加速器中存在的內存瓶頸的影響。從消極的方面來看,安裝Wave設備將是一次叉車式升級,需要完全替換傳統的X86伺服器,並且會成為所有伺服器製造商的競爭對手。
我不期待Wave在單個節點上提供優於英偉達的結果,但是它的架構設計得很好,而且公司已經表示,它應該很快就能得到客戶的結果。請繼續關注!
圖1:Wave出貨的系統是根據從上圖展示的4節點「DPU」板構建的。
Graphcore
Graphcore是一家資金雄厚(投資3.1億美元,目前估值為17億美元)的英國獨角獸創業公司,擁有世界一流的團隊。它正在構建一種新穎的圖形處理器架構,其內存與其邏輯位於同一晶元上,這將使實際應用具有更高的性能。這個團隊在很長一段時間裡一直在挑逗它將要發布的新產品。去年4月,它「幾乎準備好上市」,而該公司去年12月的最新信息表明,它將很快開始生產。它的投資者名單頗為引人注目,其中包括紅杉資本、寶馬、微軟、博世和戴爾科技。
我已經了解了Graphcore的架構,它看起來相當引人注目,從邊緣器件擴展到用於數據中心的訓練和推理的「Colossus」雙晶元封裝。在最近的NeurIPS活動上,Graphcore展示了它的RackScale IPU Pod,它在一個有32個伺服器的機架上提供了超過16 petaflp的性能。雖然Graphcore經常聲稱它的性能將是同類最佳GPU的100倍以上,但我的計算結果與此不同。
Graphcore表示,一個4「Colossus」GC2(8晶元)伺服器提供500 TFlops(每秒萬億次運算)的混合精度性能。單個英偉達V100可提供125 TFlops,因此從理論上講,4個V100應提供相同的性能。與往常一樣,問題在於細節,只有對代碼進行重構以執行TensorCore執行的4×4矩陣乘法時,V100峰值性能才可用,Graphcore架構巧妙地避免了這一限制。更不用說V100價格昂貴,且耗電量高達300瓦。此外,Graphcore支持片上互連和「處理器內存」(片上存儲器)方法,這可能會帶來超出TFlops基準測試所暗示的優秀應用性能。在一些神經網路中,如生成性對抗網路(GAN),內存是瓶頸。
再次強調,我們將不得不等待真實的用戶用實際應用結果來評估此架構。儘管如此,Graphcore的投資者名單、專家名冊和超高的估值告訴我,這可能是一個好東西。
圖2:GraphCore展示了處理ImageNet數據集的這張非常酷的圖片。這種可視化可以幫助開發人員了解他們的訓練處理消耗了處理周期中的哪些部分。
Habana Labs
去年9月,以色列初創公司Habana Labs在第一屆人工智慧硬體峰會上宣布,它已準備好推出第一款用於推理的晶元,並以創紀錄的性能運行卷積神經網路進行圖像處理,這令許多人感到意外。結果顯示,在Resnet50圖像分類資料庫中,該處理器每秒分類15,000張圖像,比英偉達的T4高出約50%,功耗僅為100瓦。2018年12月,Habana Labs的最新一輪融資由英特爾風險投資(Intel Venture Capital)領投,WRV Capital、Bessemer Venture Partners和Battery Ventures跟投,該公司的融資也由此前的4500萬美元增加了7500萬美元。最近的資金將部分用於其名為「Gaudi」的第二款晶元的流片,該晶元將專註於訓練市場,據稱可擴展到1000多個處理器。在這個競爭激烈的領域,Habana Labs表現出很多希望。
其他初創公司
我知道世界上有40多家公司在製造用於人工智慧訓練和推理的晶元。 我發現大多數公司都在做簡單的FMA(浮點乘法累加)和混合精度數學(8位整數,16位和32位浮點數),我對此並不驚訝。這種方法相對容易構建,也會得到一些容易摘到的果實,但與英偉達、英特爾等大公司以及少數幾家開發酷炫架構的初創公司(如Wave和GraphCore)相比,這無法提供持久的架構優勢。以下是幾家引起我注意的公司:
Groq:由從事TPU工作的前Google員工創立,有統治世界的雄心。Tenstorrent:加拿大前AMD員工創立,目前仍處於保密階段。我只能說其CEO的願景和架構給我留下了深刻的印象。
ThinCi:印度公司,專註於邊緣器件和自動駕駛汽車,與三星和Denso建立了合作夥伴關係。
Cerebras:由包括Andrew Feldman在內的前SeaMicro(AMD子公司)員工領導,目前仍處於深度「隱身」模式。
Mythic:一家採用獨特方法進行邊緣推理處理的創業公司,類似於非易失性存儲器上的模擬處理;應該在2019年推出晶元。
中國公司
中國一直在努力尋找一條擺脫對美國半導體依賴的道路,而人工智慧加速器可能提供它一直尋求的出口。中國中央政府制定了2030年建設萬億美元人工智慧產業的目標,自2012年以來,投資者已經向初創公司投入了超過40億美元。美國國會稱這是一場人工智慧軍備競賽,由於中國企業和研究機構在推動創新方面較少考慮阻礙西方進步的隱私和倫理問題,美國科技行業可能會落後。
Cambricon(寒武紀科技)和SenseTime(商湯科技)可能是最值得關注的中國人工智慧公司,但邊緣AI領域Horizon Robotics這樣的公司值得關注。此外,請密切關注像百度、華為、騰訊和阿里巴巴這樣的大型互聯網公司,它們都在人工智慧軟體和硬體方面進行了大量投資。
寒武紀科技是一家估值25億美元的中國獨角獸公司,已經發布了第三代人工智慧晶元。該公司聲稱,在低功耗條件下,它可以比英偉達V100提供大約30%的性能優勢。寒武紀科技還向客戶銷售IP,並為華為麒麟970移動晶元組提供人工智慧硬體。
商湯科技或許是估值最高的人工智慧初創公司,它最出名的是在中國各地推廣智能監控攝像頭。這些攝像頭的數量超過1.75億台,其中包括其他公司生產的攝像頭。商湯科技在香港成立,最近一輪融資數額達6億美元,由阿里巴巴領投。據多家媒體報道,這家初創公司目前的估值為45億美元。商湯科技與阿里巴巴、高通、本田、甚至英偉達等大公司建立了戰略合作夥伴關係。該公司現在擁有一台超級計算機,運行大約8000個(可能是英偉達提供的)GPU,並計劃再建造5台超級計算機來處理數百萬個攝像頭採集的面部識別數據。
3、英偉達
既然我已經震驚了所有持有英偉達股票的人,並把希望帶給了那些花很多錢購買英偉達GPU的人,那麼讓我們現實地看看英偉達如何在一個競爭激烈得多的市場中保持其領導地位。我們需要分別研究訓練和推理市場。
來自Nervana的歷史課
首先,讓我們看看英特爾在Nervana方面的經驗。在被英特爾收購之前,Nervana聲稱它的表現將比GPU至少高出10倍。然後,在通往勝利的路上發生了一件有趣的事情:英偉達的TensorCores讓每個人都感到驚訝,它強於Pascal不是2倍,而是5倍。接著,英偉達又在NVSwitch上加倍努力,構建出了性能驚人的8 GPU DGX-2伺服器(售價40萬美元,相當昂貴),擊敗了大部分(或許全部)競爭對手。與此同時,英偉達的CuDNN庫和驅動程序的性能幾乎翻了一番。它還構建了GPU雲,使得使用GPU就像單擊和下載優化的軟體堆棧容器一樣簡單,可以用於大約30個深度學習和科學工作負載。因此,正如我在之前的文章中所分享的那樣,英特爾承諾的10倍性能優勢消失了,而承諾在2019年末推出一款Nervana新晶元現在不得不回到設計階段。基本上,英偉達證明了,在一個虛擬車庫中,有著堅實履歷和技術儲備的1萬多名工程師可以勝過50名聰明的工程師。任何人都不應該感到驚訝,對吧?
給一萬名工程師一個大沙盒
現在,快到三年到2019年。再一次,競爭對手聲稱他們的晶元有10倍甚至100倍的性能優勢,而這一切都還在開發中。英偉達仍擁有一萬名工程師隊伍,並與全球頂尖的研究人員和終端用戶保持著技術合作關係。現在,他們都在為英偉達的下一代7nm晶元獻技,在我看來,這基本上將使該公司的產品從「帶AI的GPU晶元」轉變為「帶GPU的AI晶元」。
英偉達工程師需要為公司的下一代產品添加多少額外的邏輯區域?雖然下面的分析很簡單,但它可以有效地構建對這個關鍵問題的答案。
讓我們從第一款貌似具有出色性能的ASIC開始,即谷歌TPU。我看到分析說每個谷歌TPU晶元大約是2-2.5B個晶體管。Volta V100在12nm製造工藝中擁有大約21B晶體管。它是台積電可以製造的最大晶元。隨著英偉達從12nm遷移到7nm,晶元可以包含大約1.96(1.4×1.4)倍的晶體管。因此,從理論上講,如果英偉達不添加任何圖形邏輯(當然不太可能),它將會有另外200億個晶體管可以使用,大約是整個Google TPU邏輯量的十倍。假設我的邏輯部分佔去2倍。在這種情況下,英偉達工程師仍然有5倍的邏輯可用於新AI功能。現在,所有這一切都假設英偉達將全力追求性能,而不去降低成本或電力。不過,在訓練市場上,這正是用戶所需要的:縮短訓練時間。關於英偉達可能提供什麼,有很多想法,包括處理器內存和更多版本的tensorcore。
我的觀點是,英偉達毫無疑問擁有足夠的專業知識和可用的晶元空間來進行創新,就像它在tensorcore上所做的那樣。我和許多有趣的AI晶元初創公司談過,但我最尊敬的那些公司告訴我,他們沒有低估英偉達,也不認為他們被困在GPU的思維模式中。英偉達DLA和Xavier,一個ASIC和一個SOC,分別證明了英偉達可以創建各種各樣的加速器,而不僅僅是GPU。因此,這些初創公司的CEO中有許多人決定不採用英偉達的方式,而是首先關注推理。
我認為英偉達在訓練方面不會長期處於劣勢。它的問題可能是晶元成本高,但在訓練方面,客戶會買單。此外,在推理方面,英偉達的Xavier是一款令人印象深刻的晶元。
寒武紀大爆發有益於可編程性
讓我們回到寒武紀大爆發的觀點。英偉達正確地指出,我們正處於演算法研究和實驗的早期階段。一個在處理方面做得很好的ASIC(比如用於圖像處理的卷積神經網路)可能(而且幾乎肯定會)在處理方面做得很糟糕(例如,GAN、RNN或尚待發明的神經網路)。這裡是GPU可編程性與英偉達的研究人員生態系統相結合的地方,如果英偉達能夠解決即將出現的內存問題,那麼GPU可以相當快地適應一種新的神經網路處理方式。通過使用NVLink創建一個由8個GPU和256 GB高帶寬(HBM)內存組成的網狀結構,英偉達已經以高昂的代價顯著降低了內存容量問題。我們將不得不等待它的下一代GPU來了解它是否以及如何解決延遲和帶寬問題,這些問題需要的內存大約是HBM的10倍。
推理戰爭
正如我在本系列的第1部分中所寫的那樣,對於推理領域,現在不存在巨無霸,邊緣和數據中心推理市場是多樣化的,並準備快速增長,但我不得不懷疑,從利潤率的角度來看,大規模推理市場是否會是一個特別有吸引力的市場。畢竟,在未來的大宗商品市場上,由於許多公司都在爭奪注意力和銷量,利潤率可能相當微薄。有些推理很簡單,有些則非常困難。後一個市場將保持較高的利潤率,因為只有配備了CPU、Nervana、GPU、DSP和ASIC等並行處理引擎的複雜SOC才能提供自動駕駛所需的性能。英特爾的Naveen Rao最近在twitter上發布消息稱,Nervana推理處理器實際上將是一個採用Ice Lake CPU內核的10nm SOC。英偉達已經率先將Xavier SOC用於自動駕駛,而賽靈思也將在今年晚些時候採用類似的方法把Versal晶元用於自動駕駛。任何走在這條道路上的創業公司都需要有以下兩點:a)非常好的「性能/瓦特」值,b)創新路線圖,使他們保持領先於大宗商品。
結論
總之,我要重申以下幾點:
1、AI的未來是由專用晶元實現的,專用晶元的市場將變得巨大。
2、全球最大的幾家晶元公司打算在未來的人工智慧晶元戰爭中獲勝。雖然英特爾正在追趕,但不要低估它的能力。
3、有許多資金充足的初創企業,其中一些將會成功。如果你想投資一家風投支持的公司,請確保他們不會輕視英偉達的實力。
4、未來5年,中國將在很大程度上擺脫對美國人工智慧技術的依賴。
5、英偉達擁有超過1萬名工程師,其下一代用於人工智慧的高端GPU可能會讓我們所有人大吃一驚。
6、推理市場將迅速增長,並將有許多特定於應用的器件的空間。FPGA可能在這裡發揮重要作用,特別是賽靈思的下一代FPGA。
顯然,關於這個主題有很多內容要介紹,而我只是觸及了皮毛!感謝您花時間閱讀本系列文章,我希望它具有啟發性和知識性。
Comments