現有模型還「不懂」自然語言：20多位研究者談NLP四大開放性問題

本文轉載自公眾號微軟研究院AI頭條，原文地址

Deep Learning Indaba 2018是由DeepMind主辦的深度學習峰會，於今年9月份在南非斯泰倫博斯舉行。會上，AYLIEN研究科學家Sebastian Ruder、DeepMind高級研究科學家Stephan Gouws和斯泰倫博斯大學講師Herman Kamper組織了自然語言處理前沿會議（Frontiers of Natural Language Processing session），採訪了20多名NLP領域的研究者。不久前，Sebastian Ruder公布了這次採訪的談話實錄和大會演講的PPT，對整個採訪進行了總結。本文基於當時的專家採訪和專題討論寫成，主要探討NLP領域中的4個主要開放性問題：

自然語言理解
低資源語言NLP
大型文檔或多文檔的推理
數據集、問題和評估

自然語言理解

我認為最大的開放性問題是關於自然語言理解的。我們應該通過構建文本表徵，開發出能像人類一樣閱讀和理解文本的系統。在那之前，我們所有的進步都只是在提升系統模式匹配的能力。

——Kevin Gimpel

在專家採訪中，很多專家認為自然語言理解（NLU）問題是最核心的，因為它是很多任務的先決條件（如自然語言生成）。他們認為目前的模型都還沒有「真正」理解自然語言。

固有偏置 vs 從頭學習

一個關鍵的問題是我們應該在模型中加入哪些偏置項和結構才能更加接近自然語言理解。很多專家在採訪中提到模型應該學習常識。此外，他們也多次提到對話系統（和聊天機械人）。

另一方面，關於強化學習，David Silver認為我們最終會想要讓模型自學一切，包括算法、特徵和預測。很多專家持相反觀點，認為應該在模型中嵌入理解模塊。

程序合成

Omoju Miller認為在模型中嵌入理解模塊非常難，我們不知道NLU背後的機制以及如何評估它們。她認為我們或許可以從程序合成中獲取靈感，基於高級規範自動學習程序。此類想法與神經模塊網絡和神經編程器-解釋器（neural programmer-interpreter）有關。

她還建議我們應該回顧上世紀八九十年代開發的方法和框架（如FrameNet），並將它們與統計方法結合起來。這應該會有助於我們推斷對象的常識屬性，如汽車是否是交通工具、汽車是否有把手等。推斷此類常識知識是近期NLP數據集的重點。

具身學習（Embodied learning）

Stephan Gouws認為我們應該使用結構化的數據源和知識庫（如Wikidata）中的信息。他認為人類通過經驗和互動，將周圍環境作用於身體來學習語言。有人可能認為存在一種學習算法，在具備適當獎勵結構的信息豐富的環境中，該算法用於智能體時可以從頭學習NLU。但是，此類環境的計算量是巨大的。AlphaGo需要巨大的基礎設施才能解決定義完善的棋盤遊戲。持續學習的通用算法的創建與終身學習和通用問題求解器有關。

很多人認為既然我們在朝着具身學習的方向前進，我們就不應該低估完全具身智能體所需的基礎設施和算力。因此，等待合格的具身智能體學習語言似乎是天方夜譚。但是，我們可以逐漸接近這個終點，如在模擬環境中的grounded語言學習、利用多模態數據學習等。

情感

Omoju認為將人類情感等因素融入具身智能體是很困難的。一方面，理解情感需要對語言有更深層的理解。另一方面，我們可能不需要真正具備人類情感的智能體。Stephan表示圖靈測試被定義為模仿性和反社會的，儘管沒有情感，卻可以欺騙人類，使人們認為它有情感。因此我們應該嘗試找到無需具身和具備情感的解決方案，但它們又能理解人類情感、幫助人類解決問題。確實，基於傳感器的情感識別系統在不斷改進，文本情感檢測系統也有很大進步。

認知和神經科學

會上有觀眾提問，我們構建模型時利用了多少神經科學和認知科學知識。神經科學和認知科學知識是靈感的重要來源，可用作塑造思維的指南。舉例來說，多個模型試圖模仿人類的思維能力。AI 和神經科學是互補的。

Omoju推薦大家從認知科學理論中獲取靈感，如Piaget和Vygotsky的認知發展理論。她還敦促大家進行跨學科研究，這引起了其他專家的共鳴。例如，Felix Hill推薦大家參加認知科學會議。

低資源場景下的NLP

應對數據較少的場景（低資源語言、方言等）不是一個完全「空白」的問題，因為該領域已經有了很多頗有前景的思路，但我們還沒找到一個解決這類問題的普適方案。

——Karen Livescu

我們探索的第二個主題是在低資源場景下泛化至訓練數據之外的領域。在Indaba的場景下，一個自然的關注點就是低資源語言。第一個問題聚焦於是否有必要為特定的語言開發專門的NLP工具，還是說進行通用NLP研究已經足夠了。

通用語言模型

Bernardt認為，語言之間存在着普遍的共性，可以通過一種通用語言模型加以利用。那麼挑戰就在於如何獲取足夠的數據和算力來訓練這樣一個語言模型。這與最近的訓練跨語言Transformer語言模型和跨語言句子嵌入的研究密切相關。

跨語言表徵

Stephan表示，研究低資源語言的學者還不夠充足。光是非洲就有1250-2100種語言，大部分沒有受到NLP社區的關注。是否開發專用工具也取決於待處理的NLP任務類型。現有模型的主要問題在於其樣本效率。跨語言詞嵌入對樣本的利用非常高效，因為它們只需要詞的翻譯對，甚至只用單語數據也可以。它們可以很好地對齊詞嵌入空間，以完成主題分類等粗粒度任務，但無法完成機器翻譯等細粒度任務。然而，最近的研究表明，這些嵌入可以為無監督機器學習創建重要的構建塊。

另一方面，應對問答等高級任務的複雜模型需要學習數以千計的訓練樣本。將需要實際自然語言理解的任務從高資源語言轉移到低資源語言仍然非常具有挑戰性。隨着此類任務的跨語言數據集（如XNLI）的發展，開發用於更多推理任務的強大跨語言模型應該會變得更容易。

收益與影響

資源不足的語言本質上只有少量的文本可用，在這種情況下NLP的優勢是否會被限制也是一個問題。Stephan表現出了強烈的不同意見，他提醒我們，作為ML和NLP的從業者，我們往往傾向於用信息論的方式看問題，如最大化數據的可能性或改進基準。退一步講，我們研究NLP問題的真實原因是構建克服壁壘的系統。我們想構建一些模型，讓人們可以瀏覽非母語的新聞、在無法看醫生的情況下詢問健康問題……

考慮到這些潛在的影響，構建低資源語言系統實際上是最重要的研究領域之一。低資源語言可能沒有太多數據，但這種語言非常多。事實上，大多數人說的都是一種資源貧乏的語言。因此，我們確實需要找到讓系統在這種設定下運行的方法。

Jade認為，我們這個社區聚焦於擁有大量數據的語言，因為這些語言在全世界都有良好的教育，這似乎有點諷刺。真正需要我們關注的是那些沒有太多可用數據的低資源語言。Indaba的精妙之處在於，裏面的人正在推進這種低資源語言的研究，並取得了一些進展。考慮到數據的稀缺性，即使像詞袋這種簡單的系統也能對現實世界產生重大影響。聽眾Etienne Barnard指出，他觀察到了現實世界中語音處理的一種不同效果：與使用母語系統相比，如果英語系統適用於用戶的方言，他們往往更有動力使用英語系統。

動機和技能

另一位聽眾說，人們更有動機去做有高度可視化基準的工作，如英德機器翻譯，但在低資源的語言方面缺乏動機。Stephan認為，動機就是該問題還未解決。然而，正確的人口統計資料中沒有解決這些問題所需的技能。我們應該專註於教授機器翻譯等類似技能，以幫助大家獲取解決這些問題的能力。然而，如果跨語言基準測試變得更加普遍，低資源語言領域也將取得更多進展。

數據可及性

Jade最後提到，低資源語言（如非洲的一些語言）缺乏可用的數據集是一大問題。如果我們創造數據集並使其非常容易獲得（如將其放在openAFRICA上），這將極大地激勵大家並降低入門門檻。提供多種語言的測試數據通常就足夠了，因為這可以幫助我們評估跨語言模型並跟蹤進度。另一個數據資源是South African Centre for Digital Language Resources（SADiLaR），該資源包含很多南非語種。

對大型文本和多個文本進行推理

高效表徵大型文本。現有模型主要基於循環神經網絡，該網絡無法良好地表徵較長的文本。受圖啟發的RNN工作流程具有發展潛力，因為它們比普通的RNN要更加容易訓練，儘管目前只看到了有限的改進，而且還沒有被廣泛採用。

——Isabelle Augenstein

對大型文本和多個文本進行推理也是一個較大的開放性問題。最近的NarrativeQA數據集是符合這一背景的一個很好的基準示例。使用很大的語境進行推理與NLU緊密相關，需要大幅度擴展現有系統，使其可以閱讀整本書或整個電影劇本。這裡有一個關鍵問題：我們需要訓練更好的模型還是僅僅在更多數據上訓練？此處不展開討論。

OpenAI Five等研究表明，如果大幅增加數據量和計算量，現有模型可以完成的任務將非常可觀。有了足夠的數據，現有模型在更大的語境中也能表現出很好的性能。問題在於，有大量文本的數據非常少見，獲取成本也非常昂貴。與語言建模和skip-thoughts類似，我們可以想像一個文件級別的無監督任務，要求預測一本書的下一個段落或下一個章節，或者決定下一章應該是哪一章。然而，這個目標很可能太簡單——效率低下，無法學習有用的表徵。

開發能夠在閱讀文件時更加高效地表徵語境並追蹤相關信息的方法似乎是一個更加實用的方向。多文件摘要和多文件問答與這一研究方向一致。類似地，我們可以利用提高後的內存能力和終身學習能力來構建模型。

數據集、問題和評估

或許最大的問題是如何定義問題本身。正確定義問題指的是構建數據集和評估步驟來恰當地衡量我們在具體目標上的進展。如果能將所有問題都簡化為Kaggle風格的競賽，事情就簡單多了！

——Mikel Artetxe

本文沒有空餘篇幅討論當前基準測試和評估設置的問題，相關回答可以參考調查結果。最後一個問題是，非洲社會最亟待解決的NLP問題是什麼。Jade給出的答案是資源不足問題。讓人們藉助翻譯用自己的語言接觸所有感興趣的教育資源是非常重要的一件事情。

現有模型還「不懂」自然語言：20多位研究者談NLP四大開放性問題

自然語言理解

低資源場景下的NLP

對大型文本和多個文本進行推理

數據集、問題和評估

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

關注我們的公眾號：easyai-tech

自然語言理解

低資源場景下的NLP

對大型文本和多個文本進行推理

數據集、問題和評估

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech