又到了年終,這意味着現在是KDnuggets年終專家分析和預測的時候了。今年,我們提出了一個問題:

2019年AI,數據科學,深度學習和機器學習的主要發展是什麼?您預計2020年會有哪些主要趨勢?

當我們回顧一年前專家的預測時,我們看到了可以被視為自然技術進步的混合結果,並帶有一些更雄心勃勃的預測。有幾個一般性主題,以及幾個值得注意的預後。

特別是,人們不止一次提到了對AI的持續恐懼,而且這一預測似乎已經平息了。關於自動化機器學習的進展的討論很普遍,儘管人們對它是否有用還是步履蹣跚持不同意見。我認為在某種程度上尚無定論,但是當對技術的期望降低時,將其視為有用的添加物而不是迫在眉睫的替代物變得容易了。也有充分的理由指出了增加的AI永遠是有益的,並且有無數的例子表明了這種預測的準確性。實用的機器學習會產生影響的想法在那裡提出,這表明樂趣和遊戲即將結束,現在是時候進行機器學習了。這是真的,傳聞表明從業者正在尋找這些機會。最後,提到反烏托邦人工智能發展引起的對監視,恐懼和操縱的日益關注,可以通過對過去一年的新聞進行簡單的現場檢查來確信地將其添加到成功的預測類別中。

還有一些預測還沒有完成。但是,在這種練習中這是不可避免的,我們將讓那些感興趣的讀者自行尋找。

今年我們的專家名單包括Imtiaz Adam,Xavier Amatriain,Anima Anandkumar,Andriy Burkov,Georgina Cosma,Pedro Domingos,Ajit Jaokar,Charles Martin,Ines Montani,Dipanjan Sarkar,Elena Sharova,Rosaria Silipo和Daniel Tunkelang。我們感謝他們所有人從忙碌的年終時間表中抽出時間為我們提供見解。

這是接下來一周內三篇類似文章中的第一篇。儘管它們將被劃分為研究,部署和行業,但這些學科之間存在相當大且可以理解的重疊,因此,我們建議您在發佈這三本書時都將其檢出。

頭像標題圖片

毫不猶豫的是,這是今年專家組提出的2019年主要趨勢和2020年的預測。

Imtiaz Adam@ DeepLearn007)是人工智能與戰略執行官。

在2019年,組織提高了對與數據科學中的道德與多樣性有關的問題的認識。

彩票假說論文顯示了通過修剪可以簡化深度神經網絡訓練的潛力。Neuro Symbolic Concept Learner論文顯示了將邏輯和深度學習與增強的數據和內存效率結合起來的潛力。

GAN的研究獲得了動力,尤其是深度強化學習受到了很多研究關注,包括邏輯強化學習和用於參數優化的遺傳算法等領域。

TensorFlow 2隨附Keras集成且急於執行默認模式。

2020年,數據科學團隊和商業團隊將更加融合。5G將推動AI推理的發展,推動智能物聯網的發展,這意味着AI將越來越多地進入物理世界。深度學習與增強現實相結合將改變客戶體驗。

Xavier Amatriain@xamat)是Curai的聯合創始人/首席技術官。

我認為這是深度學習和NLP的一年,這一點很難反對。更具體地說,是語言模型的年份。或更具體而言,是《變形金剛》和GPT-2的一年。是的,這可能令人難以置信,但是距OpenAI首次使用至今不到一年已發佈談到他們的GPT-2語言模型。這篇博客文章引發了很多關於AI安全的討論,因為OpenAI並不樂意發佈該模型。從那時起,該模型被公開複製,並最終發佈。但是,這並不是該領域的唯一進步。我們已經看到Google發佈了AlBERTXLNET,還討論了BERT如何成為多年來Google搜索最大的改進。從AmazonMicrosoftFacebook的所有人 似乎已經真正地加入了語言模型革命,我確實希望在2020年在該領域看到令人矚目的進步,而且似乎我們越來越接近通過圖靈測試。

Anima Anandkumar@AnimaAnandkumar)是NVIDIA機器學習研究總監,也是加州理工學院的Bren教授。

研究人員旨在更好地了解深度學習,其泛化特性和失敗案例。減少對標記數據的依賴是一個重點,而自訓練等方法也取得了進展。模擬對於AI培訓變得越來越重要,並且在諸如自動駕駛和機械人學習等視覺領域(包括在DriveSIM和Isaac等NVIDIA平台上)的逼真度也越來越高。語言模型變得很龐大,例如NVIDIA的80億Megatron模型在512 GPU上進行了訓練,並開始生成連貫的段落。但是,研究人員在這些模型中顯示出虛假的相關性和不良的社會偏見。人工智能法規已成為主流,許多知名政客都表示支持政府機構禁止面部識別。從去年的NeurIPS名稱更改開始,人工智能會議開始執行行為守則,並加大了努力以改善多樣性和包容性。在未來的一年中,我預計將會有新的算法開發,而不僅僅是深度學習的表面應用。這將特別影響物理,化學,材料科學和生物學等許多領域的「科學人工智能」。

Andriy Burkov@burkov)是Gartner的機器學習團隊負責人,也是《百頁機器學習書》的作者。

毫無疑問,主要的發展是BERT,這是一種語言建模神經網絡模型,可在幾乎所有任務上提高NLP的質量。Google甚至將其用作相關性的主要信號之一-多年來最重要的更新。

在我看來,關鍵趨勢將是PyTorch在業界的廣泛採用,對更快的神經網絡訓練方法的研究以及對便利硬件上的神經網絡的快速訓練的研究。

Georgina Cosma@ gcosma1)是拉夫堡大學的高級講師。

在2019年,我們對諸如YOLOv3之類的深度學習模型令人印象深刻的功能進行了評估,以應對各種複雜的計算機視覺任務,特別是實時對象檢測。我們也已經看到,生成對抗網絡繼續吸引着深度學習社區的關注,其用於ImageNet生成的BigGAN模型以及用於人類圖像合成的StyleGAN用於圖像合成。今年,我們還意識到,愚弄深度學習模型非常容易,一些研究還表明,深度神經網絡很容易受到對抗性例子的攻擊。在2019年,我們還看到有偏差的AI決策模型被部署用於面部識別,招聘和法律應用。我希望在2020年看到多任務AI模型的發展,這些模型旨在實現通用和多用途,

Pedro Domingos@pmddomingos)是華盛頓大學計算機科學與工程系的教授。

2019年的主要發展:

  • 上下文嵌入的快速傳播。它們還不到兩年的歷史,但是現在它們在NLP中佔據了主導地位,而且Google已經在搜索引擎中部署了它們,據報道,每10個搜索中就有1個改進了。從視覺到語言,在大數據上預先訓練模型,然後針對特定任務對其進行調整已成為標準。
  • 雙重血統的發現。我們對超參數化模型如何很好地泛化而完美擬合訓練數據的理論理解已得到很大改善,特別是通過對以下觀察結果的候選解釋:-與經典學習理論的預測相反-泛化誤差隨着模型容量而下降,上升然後下降增加。
  • 媒體和公眾對AI進步的看法變得更加懷疑,人們對自動駕駛汽車和虛擬助手的期望越來越低,而浮華的演示也不再具有價值。

2020年的主要趨勢:

  • 深度學習人群嘗試從視覺和語音識別等低級知覺任務到語言理解和常識性推理等高級認知任務「爬升」的嘗試將加快速度。
  • 通過在問題上投入更多的數據和計算能力來獲得更好的結果的研究模式將達到極限,因為它的指數成本曲線比摩爾定律還要陡峭,而且即使富裕公司也負擔不起。
  • 幸運的是,我們將進入Goldilocks時代,那裡既沒有關於AI的過度宣傳,也沒有另一個AI冬季。

Ajit Jaokar@AjitJaokar)是牛津大學「人工智能:雲與邊緣實現」課程的課程主任。

在2019年,我們將牛津大學的課程更名為人工智能:雲和邊緣實現這也反映了我的個人觀點,即2019年是雲成熟的一年。今年是我們談論的各種技術(大數據,人工智能,物聯網等)在雲框架內融合在一起的一年。這種趨勢將繼續-特別是對於企業。公司將採取「數字化轉型」計劃-在這些計劃中,他們將使用雲作為統一的範式來轉換由AI驅動的流程(類似於重新設計公司2.0)

在2020年,我還將看到NLP逐漸成熟(BERT,威震天)。5G將繼續部署。當2020年後5G全面部署(例如無人駕駛汽車)時,我們將看到IoT的廣泛應用。最後,在IoT方面,我遵循一種稱為MCU(微控制器單元)的技術-特別是機器學習模型或MCU的部署

我相信AI會改變遊戲規則,每天我們都會看到許多有趣的AI部署示例。阿爾文·托夫勒(Alvin Toffler)在未來的震驚中所預測的大部分內容,今天已經在我們身邊了–人工智能究竟將如何放大,還有待觀察!可悲的是,人工智能的變化速度將使許多人落伍。

Charles Martin是AI科學家和顧問,並且是Calculation Consulting的創始人。

BERT,ELMO,GPT2等!2019年的AI在NLP方面取得了巨大進步。OpenAI發佈了他們的大型GPT2模型-用於文本的DeepFakes。谷歌宣布將BERT用於搜索-這是自熊貓以來的最大變化。甚至我在UC Berkeley的合作者都發佈了(量化的)QBERT,用於低佔用空間的硬件。每個人都在製作自己的文檔嵌入。

這對2020年意味着什麼。根據搜索專家的說法,2020年將是具有相關性的一年*(呃,他們一直在做什麼?)。期望看到通過BERT樣式的微調嵌入,向量空間搜索最終會受到關注。

在引擎蓋下,PyTorch在2019年超過Tensorflow作為AI研究的選擇。隨着TensorFlow 2.x的發佈(以及pytorch的TPU支持)。2020年的AI編碼將全都渴望執行。

大公司在AI方面正在進步嗎?報告顯示成功率為十分之一。不是很好。因此,AutoML將在2020年出現需求,儘管我個人認為,像取得出色的搜索結果一樣,成功的AI需要針對業務的定製解決方案。

詞雲

Ines Montani@_inesmontani)是致力於人工智能和自然語言處理技術的軟件開發人員,並且是Explosion的共同創始人。

每個人都選擇「 DIY AI」而不是雲解決方案。推動這一趨勢的一個因素是遷移學習的成功,這使任何人都可以更輕鬆地以良好的準確性訓練自己的模型,並根據他們的特定用例進行微調。每個模型只有一個用戶,服務提供商無法利用規模經濟。轉移學習的另一個優點是,數據集不再需要那麼大,因此注釋也在內部移動。住房趨勢是一個積極的發展:商業AI的集中程度遠低於許多人的預期。幾年前,人們擔心每個人都只能從一個提供商那裡獲得「他們的AI」。取而代之的是,人們並沒有從任何提供商那裡獲得AI,而是他們自己在做。

Dipanjan Sarkar是Applied Materials的數據科學負責人,Google Developer Machine-Experts的作者,作家,顧問和培訓師。

2019年人工智能領域的主要進步是在自動ML,可解釋AI和深度學習領域。自最近幾年以來,數據科學的民主化仍然是一個關鍵方面,並且與Auto-ML有關的各種工具和框架都在試圖使這一過程變得更容易。還有一點需要注意的是,在使用這些工具時,我們需要小心以確保我們不會出現偏倚或過度擬合的模型。公平,負責和透明仍然是客戶,企業和企業接受AI決策的關鍵因素。因此,可解釋的AI不再是僅限於研究論文的主題。許多優秀的工具和技術已經開始使機器學習模型的決策更具可解釋性。最後但是同樣重要的,在深度學習和轉移學習領域,尤其是在自然語言處理方面,我們已經看到了許多進步。我希望在2020年圍繞NLP和計算機視覺的深度轉移學習領域看到更多的研究和模型,並希望有一些東西能夠充分利用深度學習和神經科學的知識,從而引導我們邁向真正的AGI。

Elena Sharova是ITV的高級數據科學家。

到目前為止,在DeepMind DQNAlphaGo的遊戲中,深度強化學習是2019年最重要的機器學習的發展; 導致圍棋冠軍Lee Sedol退役。另一個重要的進步是自然語言處理,谷歌和微軟開源了BERT(深度雙向語言表示),從而領導了GLUE基準測試,並開發了用於語音解析任務的MT-DNN集成並進行了開源採購

重要的是要強調歐洲委員會發佈的《可信AI道德準則》,這是第一份正式出版物,其中列出了關於合法,道德和健壯AI的明智準則。

最後,我要與KDnuggets讀者分享,PyData London 2019的所有主題演講者都是女性-這是一個可喜的進步

我預計2020年的主要機器學習發展趨勢將在NLP和計算機視覺領域內繼續。採用ML和DS的行業已經意識到,他們在為聘用和保留數據科學家,管理涉及DS和ML的項目的複雜性以及確保社區保持開放和協作性方面的最佳實踐定義共享標準時,已經逾期未了。因此,我們應該在不久的將來看到更多關注此類標準的內容。

Rosaria Silipo@DMR_Rosaria)是KNIME的首席數據科學家。

2019年最有希望的成就是採用主動學習,強化學習和其他半監督學習程序。半監督學習可能會帶來希望對當前填充我們數據庫的所有這些未標記數據存根。

另一個重大進步是在autoML概念中用「指導」對「自動」一詞進行了更正。對於更複雜的數據科學問題,專家干預似乎是必不可少的。

2020年,數據科學家將需要一種快速的解決方案,以實現簡單的模型部署,持續的模型監視和靈活的模型管理。真正的業務價值將來自數據科學生命周期的這三個最終部分。

我還相信,深度學習黑匣子的更廣泛使用將引發機器學習可解釋性(MLI)的問題。到2020年底,我們將看到MLI算法是否能夠應對詳盡解釋深度學習模型閉門事件的挑戰。

Daniel Tunkelang@dtunkelang)是專門從事搜索,發現和ML / AI的獨立顧問。

AI的最前沿仍然專註於語言理解和生成。

OpenAI發佈了GPT-2以預測和生成文本。出於對惡意應用程序的關注,OpenAI當時並未發佈經過​​訓練的模型,但最終他們  改變了主意

Google發佈了大小為80MB 的設備上語音識別器,從而可以在移動設備上執行語音識別,而無需將數據發送到雲端。

同時,我們看到了有關AI和隱私的擔憂日益加劇。今年,所有主要的數字助理公司都在聽取用戶對話的員工或承包商周圍遭到強烈反對。

2020年將為人工智能帶來什麼?我們將看到對話式AI的進一步發展,以及更好的圖像和視頻生成。這些進展將使人們更加關注惡意應用程序,並且我們可能會看到一兩個醜聞,尤其是在選舉年。善惡AI之間的張力不會消失,我們必須學習更好的應對方法。

相關

本文轉自kdnuggets,原文地址