本文轉載自公眾號——AI前線。原文地址

AI 前線導讀:近年來,自然語言處理技術已經取得了長足進步,成為應用範圍最廣泛,也是最為成熟的 AI 技術之一。但實際上,自然語言處理技術在商業化應用上卻鮮有突破性進展,真正成功或者能夠完美滿足人們日常生活需求的產品並不多。

回首 2018 年,自然語言處理領域不乏進展和驚喜,比如谷歌提出的 BERT 模型打破 11 項世界紀錄。然而,與年初一些專家做出的預測基本無異,這個領域進展緩慢的狀況很大程度上並沒有得到改善。

那麼,自然語言處理技術在商業化應用上到底是出現了什麼問題?為何遲遲沒有大的進步?解決問題的關鍵在哪裡?

本文是 AI 前線年終盤點自然語言處理技術專題系列文章之商業化篇,將通過數家代表自然語言處理技術在各行業中應用最前沿的公司:科大訊飛、京東、騰訊、小米和氪信,來探索自然語言處理在商業化應用層面上的現狀,希望能夠對突破當前的瓶頸有所啟發。

更多乾貨內容請關注微信公眾號「AI 前線」(ID:ai-front)

商業化應用現狀

發展水平:基本可用 vs 中等偏前

自然語言處理技術目前在行業應用中究竟現狀如何呢?對於這個問題,專家們給出的回答有些許不同。

首先,五位專家都一致認可自然語言處理技術在行業中的應用範圍已經非常廣泛。科大訊飛認為,對比而言,語音技術作為感知能力的代表,應用水平相對更高,屬於好用狀態;NLP 要看具體的任務,不少任務的實際應用性能也不錯,總體上來說,NLP 行業應用屬於基本可用狀態,離真正意義上的好用還是有較長的距離。

而小米則認為,自然語言處理技術的含義很廣,籠統地說,NLP 和語言技術在目前的行業應用中都處於中等偏前的水平。

相比之下,與科大訊飛有著合作的氪信很坦率地指出,語音技術由於深度學習的發展在最近幾年有很大的突破,這使得語音識別、語音合成、聲紋識別等技術均可大規模應用在工業領域。但是,光有耳朵和嘴巴還是不行,這個智能系統最重要的是要有大腦,聽進來的話需要理解它(NLU),然後是怎麼通過自己的知識積累和業務訴求來回復(NLG)。這個大腦的核心技術就是 NLP 相關的技術。但然而,坦白地說,NLP 在工業領域的應用還屬於早期階段,不像視覺領域,行業內已經有具體標杆效應的獨角獸公司,如曠世、商湯等。很多智能交互系統要麼只能在非常狹窄的領域中做簡單的任務,要麼有經常被詬病的人工智障的問題,NLP 技術雖難,但任重道遠。

主要應用領域和應用場景

正如各位專家所說,目前自然語言處理技術在行業中的應用已經非常廣泛,包括電商、翻譯、金融、智能硬體、醫療、旅行、住宿等各個行業,應用場景涵蓋語音分析、文本分析、情感分析、意圖分析、圖形和圖像識別、互動語音回復、光符識別等,已經應用於公有雲、私有雲和混合雲之上,IT 和電信商、醫療、零售、銀行等都是自然語言處理技術的終端用戶。

在這些領域和場景中,自然語言處理技術比較成熟的商業化包括搜索引擎、個性化推薦、廣告、細分領域的知識問答 / 智能問答等,常用的自然語言處理的方法包括分詞標註、文本分類、關鍵詞分析、敏感用語識別、詞頻統計、觀點歸納,情感分析等。然而,雖然有不少公司標榜自己的在產品中應用了這些技術,但是真正產生實用價值,並為企業帶來可見收益的公司卻是少數。

AI 前線通過與處在自然語言處理技術前沿的五家企業:科大訊飛、京東、騰訊、小米和氪信的交流,進一步了解了當前自然語言處理技術在企業中的應用和商業化現狀。五家企業對應的行業領域應用場景分別為翻譯、智能對話與客服、智能問答、智能硬體和金融。

五家公司自然語言處理技術典型應用一覽:  

商業化現狀

目前為止,單純依靠 NLP 或語音技術變現還是一件比較困難的事。在採訪中,五家公司都表示在公司內部財報中並沒有專門針對這兩項技術帶來收益的計算方法,甚至發生收益是否歸功於這兩項技術的爭論,感嘆語音是性價比很低的事情,離錢太遠。

因此,AI 前線並未獲得可以直觀顯示這兩項技術帶來具體收益的數據。

但是,我們可以從一些與這兩項技術密切相關的智能硬體銷售情況,側面了解到其商業化現狀。

比如,根據全球權威市場調研機構 Canalys 發布的 2018 年第三季度中國智能音箱報告顯示,阿里巴巴旗下天貓精靈出貨量 220 萬台、排名第一,小米小愛音箱出貨量 190 萬台、排名第二,百度出貨量 100 萬台,排名第三。其中,截至 10 月底,小米小愛同學累計 80 億次喚醒,日活達 3400 萬,也間接為該公司帶來收益。

據媒體報道,科大訊飛發布的智能轉寫機器人「訊飛聽見 M1」目前已經正式預售,此前推出的智能硬體中,訊飛翻譯機 2.0 上市 5 個月銷量超 20 萬台。科大訊飛董事長劉慶峰稱,該公司 2C 業務翻番增長,而且現金流情況也很好,已經佔到公司的銷售收入的 30% 多,毛利接近 40%,「儘管激烈的市場競爭會讓翻譯機等應硬體產品價格出現一些小的波動,但整體上翻譯機會維持在 50% 的毛利率,降價範圍在 5%~10% 之內。」

另外,數據分析網站 statista 的一組數據,也能反映出自然語言處理全球市場的大致狀況。數據顯示,2018 年,全球自然語言處理的市場規模達 5.8319 億美元,到 2024 年將達到約 21 億美元。

那麼,在業內人士的眼中,NLP 和語音兩項技術在商業化或落地方面的進展算是成功還是失敗呢?

對此,五位專家給出了自己各不相同的回答,但總體上都對 NLP 和語音領域近年來取得的進步表示肯定,表示自然語言處理技術基本處於可用狀態,雖然還遠未到完善,但看好其未來的商業化應用前景。

氪信表示,語音的率先突破引領了 AI 這一波的興起。今年以來基於 ELMo 模型在多個場景內都有不俗的效果,以及最近 2 個月谷歌提出的 BERT 模型瘋狂屠榜都一再表明,基於合理的模型結構實現 NLP 的模型遷移有很大的發展前景,而在技術上的持續投入也會收穫累累碩果。

科大訊飛表示,技術的進展和突破非一朝一夕之功,還是要相信全球的廣大 AI 研究者,能夠給大家帶來驚喜。關於商業化層面,還涉及到市場、供需是否一致等一系列問題,包括國外的 Google、Facebook 等企業,國內的 BATI 等企業,都在各個垂直領域做了很多探索,也有不少進展。總體而言,科大訊飛對 AI 技術的應用持非常樂觀的態度,雖然當前還面臨一些技術上的挑戰,或者商業上的資源瓶頸等,但相信隨著 AI 市場機制的健全和剛性需求的不斷增長,AI 的更大範圍應用將要馬上到來。

小米對自然語言處理技術的信心更強,認為總體而言,這兩項技術在商業化方面的還是比較成功的,只是由於 NLP 技術是很多商業領域的支撐技術,因此很多商業的成功大家都不將功勞歸功於 NLP。實際上,近年來機器翻譯和文本生成領域取得了不小的進步。當然,相對於其他領域,NLP 領域的提高幅度沒有那麼大,一方面是因為 NLP 領域的相對水平已經比較高 (相對於圖像等領域),另一方面,現有數據驅動的方法要做到自然語言的語義理解還具有相當難度。小米認為,要真正突破,還是要理解自然語言。

騰訊認為,還是需要找到場景。以視覺為例,大家看好像人臉技術已經非常成熟,各家公司都已經做到 99% 精度,但最開始的商業化落地還是在安防領域,產品打磨的比較成熟了,才逐漸滲透到其他行業。自然語言處理技術我相信也需要這樣一個市場認知和接受的過程。這兩年也看到了比較多的商業化落地的產品,包括智能客服,知識圖譜、信息抽取等,市場熱度也在逐漸升高,騰訊表示非常有信心。當然,一方面 NLP 技術相對視覺還不夠特別成熟,這就需要產學研一起摸索和進步,另一方面在商業化方面也需要找到一些核心場景和抓手,逐點突破。

京東也認為,目前自然語言理解技術在深度學習的驅動下,已經獲得了長足的進步,無論是人工智慧領域的頭部公司,還是基於人工智慧高新科技催生出的創新型企業,都在摸索自然語言理解技術新的應用場景創新。比如京東目前就基於領先的自然語言理解技術,結合京東零售、物流、金融等全價值鏈場景和精準數據,打造出業內領先的解決問題型智能對話系統。結合京東情感 AI、知識圖譜等技術的發展,更孵化出涵蓋售前、售中、售後的有溫度智能客戶服務、高精準的 AIoT 對話服務、大規模個性化內容生成等有實際應用的價值的落地探索,為京東自身的主營業務帶來巨大價值。

但是,自然語言處理技術還面臨著一大困難,那就是特定場景需要特定的模型。通用語言理解模型成為這一問題的關鍵。

NLP 和語音應用僵局如何破?

今年年中,Reddit 上一場關於自然語言處理技術突破的激烈爭論曾給筆者留下了深刻的印象。在這場討論中,有人認為,NLP 和語音領域的突破狀況有些令人失望,人們研究的熱點紛紛轉向了 GAN 和強化學習,也有人認為,NLP 和語音領域已經成為目前為止應用最為廣泛和成熟的 AI 技術之一,取得的進步有目共睹。

但評論中大家一致認同的是,近年來自然語言領域的突破進展確實乏善可陳。為什麼自然語言處理難有突破出現呢?

最先進的理解、推理模型,以及各自的缺陷

閱讀理解: 閱讀理解旨在考察機器在給定篇章的情況下,完成面向對應問句的精準回復。斯坦福的 SQuAD 等數據集推動了這個領域的研究。通過最新的基於注意力機制的深度學習方法,該類閱讀理解問題的準確率已經可以做的很高。

缺陷: 當前的閱讀理解還是在給定問句的情況下去篇章中抽取答案,且對訓練數據的依賴相對還是較高的。機器通過利用各類知識,實現真正意義上對篇章的理解,還有較長的路要走。

推理: 傳統的符號邏輯推理業界一直都在研究,但是進展相對緩慢。一方面由於推理所涉及的領域非常廣泛,機器如何具備知識這個問題一直也沒有得到很好的解決,所以在解決實際推理問題的時候,往往表現得非常依賴人工專家知識,缺乏較好的泛化性。

近年來隨著深度學習的發展,一些近似推理的工作也被大家關注。比如以知識圖譜表示為代表的工作,將知識圖譜表示在低維連續向量空間中,並通過向量空間的語義聯繫,學習概念或實體之間的關係,並據此進行淺層的關係推理。

目前公開最先進模型應該是 ICLR 2018 文章中提到的 DIIN。NLI (自然語言推理)任務主要是判斷兩個句子的邏輯關係,是蘊含,互斥,還是無關,一般轉化為句子 pair 的分類問題。DIIN 模型框架上遵循通用的表徵學習 + 交互匹配的框架,細節上把 multi-head attention 用到了極致。

缺陷: 近似推理目前比較熱門,但總體還是以相對淺層的推理為主。DIIN 在涉及時間、梳理、條件判斷的時候,準確率降至 50% 左右。就 NLI 任務而言,目前模型已經能夠在大多數情況做到 80-90% 的準確率,但對於長尾情形的效果,反而規則、正則更好處理。

典型技術難題及解決思路

問題 1:基於 CNNLSTM 模型的問答模型經常在只「讀到」問題的一半就收斂於一個預測出的答案。這意味著模型嚴重依賴於訓練數據的表面相關性,缺乏組合性,導致結果出現偏差。

解決思路 1: 模型依賴訓練數據的表面相關性,實質上是當前深度學習技術在序列建模過程中的共性問題,本質上屬於模型的泛化性問題。

要克服這類問題,需要研究一個相對通用普適的語義模型,該模型具有較強的泛化能力,這樣就可以讓該語義模型作為核心基礎,為各領域的特有模型提供語義支撐。要設計實現該類模型,需要解決無監督語義學習的問題,這類工作目前在學術界開始被關注,比如 ELMo、BERT 都是這類工作。(科大訊飛專家)

解決思路 2: 通用語義嵌入大規模預訓練可能是預防過訓練的一種方式。此外還需要新的合成模型。另一種方法是構建更多複雜、大規模、真實世界的任務,如開放對話或目標導向對話相關的複雜結構性任務,比如銷售對話、客服對話。這些任務將促進更加普適、更綜合的模型出現,因為在這些複雜的任務重中,表層相關模型的效果並不好,亟需合成信息模型。(京東專家)

解決思路 3: 首先通過訓練集和測試集上的表現變化,判斷模型是過擬合還是欠擬合。如果是欠擬合,說明模型沒有很好地捕捉到特徵,這種情況下應該在特徵的層面進行加強,把模型加深;如果是過擬合,說明參數的複雜度超過了數據的複雜度,常見的做法包括數據增強、正則、模型簡化、dropout、早停等。(騰訊專家)

解決思路 4: 具體來說,CNN 與 LSTM 模型建模問句時,很容易捕獲跟答案直接相關的問句中靠前位置詞語,如「type」和「topic」類型的詞語,不管輸入序列的長短,現有的 attention 模型或者 CNN 濾波都容易反覆關注到這些詞,造成只「讀到」問題的一半就收斂於一個預測出的答案。

可能的解決方式包括:

  1. 嘗試 coverage 的 attention,主要思想是別讓某些詞(如問句中靠前的詞語)反覆被關注到;
  2. transformer 替換 CNN 或者 LSTM,transformer 的 self-attention 可以建模句子內部的依賴信息,也可以捕獲長距離依賴,在絕大部分 NLP 任務上比 CNN、LSTM 效果好。(小米專家)

解決思路 5: 在文本處理中,CNN 網路更適合於短文本中的特徵提取,LSTM 網路雖然在誕生之初為了解決長句子訓練中的梯度爆炸和消失的問題,在相對較長的句子中其確實顯示了很好的效果,但是對於問答類數據,文本過長導致 LSTM 在訓練中遺忘句子之前的信息並且在訓練中無法將問題的特徵加到網路中一塊訓練,而導致效果不好。

目前對於問答模型更傾向利用基於注意力機制的網路,最典型的是 BERT 網路,完全依賴注意力機制, 另一種是依據記憶力網路的結構, 像 Deep Memory Network, 通過記憶力網路循環計算整個句子的注意力權重。(氪信專家)

問題 2: 現代 NLP 技術在基準數據集上表現優良,但對於未知自然語言文本的語言理解與推理方面遠不及人類的水平。**

解決思路 1: 這與第一個問題類似,也是模型的泛化能力問題。除了嘗試設計一個通用的無監督語義模型之外,還可以重點思考如何將各類人類知識引入到機器的建模學習過程中。人類知識相對稀疏和抽象,但卻具備將各類概念和實體關聯起來的作用,所以如果機器能具備對人類知識的學習能力,那麼其在處理未知信號的時候,就會表現的更加智能。(科大訊飛專家)

解決思路 2: 我們需要大規模、注意力具有結構化注意力機制、普適的語言理解模型,這是通向類人水平 NLP 智能的道路。我認為最近一些進展,如 HAN、BERT、Transformer、Elmo 也是解決這個問題的方向。(京東專家)

解決思路 3: 一方面機器語言理解確實還不及人類。人類在理解語言的時候會調用很多語言之外的信息,比如常識等,相當于海陸空聯合作戰,模型目前還只具備學習到怎麼使用一把特定的手槍,我們對此也應該有正確的預期。另一方面,在相似的任務上和數據上,可以考慮遷移學習或者預訓練模型來快速啟動。(騰訊專家)

解決思路 4: 在基準數據集上表現優良並不代表在未知數據上表現好,這是機器學習領域的努力方向。現有 NLP 技術大都基於機器學習方法,因此,這也是 NLP 技術的努力方向之一。這個問題確實非常難,對於 NLP 而言,也許融合知識 (包括語言學知識、人類常識、領域知識等) 是一個緩解上述問題的方向。(小米專家)

解決思路 5: 這個問題不僅只限於 NLP 領域,在任何場景訓練的模型如果遷移到新的未知領域,都會遇到模型性能劇烈下降的問題。我們需要構建一個可快速迭代的系統或者框架來解決未知領域的問題。預訓練的模型先快速冷啟動,收集樣本,持續監控模型的性能,然後快速迭代模型。(氪信專家)

問題 3: 如何充分衡量模型在新的、從未見過的輸入數據上的表現?或者說,如何衡量系統的泛化能力?以及如何處理未曾見過的數據分布和任務?

解決思路 1: 可以從模型在多個不同任務上的表現來衡量,即擴大評估集合;另一方面,還可以將模型應用到不同的系統中來評估。

嚴格來說,自然語言理解領域的未知數據,由於空間極為龐大,很難建模或者預設,因此不論是從模型評估來看,還是從模型訓練來說,未知數據或信息的建模學習,都還是一個比較大的問題。(科大訊飛專家)

解決思路 2: 對於神經網路而言,現在還沒有比較好的理論指導。ICLR`17 的最佳論文給了「Understanding Deep Learning Requires Rethinking Generalization」也說明了學界對深度學習的泛化能力的關注和討論,這篇文章做了大量的實驗,表明深度神經網路一定程度上「記憶」了輸入樣本。這篇文章同時也認為經典統計機器學習理論和正則策略難以解釋深度網路的泛化能力,目前來看,仍然還沒有公認的答案。(騰訊專家)

解決思路 3: 目前來看非常困難,對於未曾見過的數據分布和任務,可以嘗試採用遷移學習等方法來將在其他數據上得到的規律遷移到新數據或者新任務上來。(小米專家)

解決思路 4: 首先得有一個非常合理和直觀的評價指標,其次需要在跨時間窗口或者跨場景的多批數據上充分測試,避免過擬合的現象。(氪信專家)

問題 4: 機器翻譯模型的訓練,我們使用諸如交叉熵或預期句子級別 BLEU 之類的損失函數訓練模型。這些函數已經被證明存在偏好,而且與人類判斷不充分相關。強化學習似乎是 NLP 的一個完美選擇,因為它允許模型在模擬環境中通過反覆試驗來學習類似人類的監督信號(「獎勵」)。但是,強化學習也無法完全解決 NLP 的所有問題,強化學習在進行 NLP 時的問題主要是什麼?怎麼解決?

解決思路 1: 強化學習在 NLP 領域的應用,最主要的問題是 reward 信號的確定問題。由於自然語言非常稀疏,屬於非連續信號,如何定義獎勵函數一直是自然語言處理領域的普遍難題。包括機器翻譯的 BLEU 分,文檔摘要的 ROUGE 分,雖然屬於相對客觀的指標,但還是無法直接代表人類的語義評價。因此這個問題本質上,是如何客觀評估或者定義語義的問題。我個人認為強化學習在 NLP 領域暫時還不能有很好的應用。(科大訊飛專家)

解決思路 2: 強化學習在 NLP 領域是一個非常強大,且具有潛力的工具,但不可以解決所有的 NLP 問題。如強化學習不能告訴你最好的損失函數是什麼,因為它必須是語言 / 任務相關。而且經典的 RL 演算法需要進行拓展去解決語言問題,比如說如何處理一個接近無限的行動空間(如語言空間),如何處理一個無法簡單模仿環境的開放系統,如何在不同的對話任務中定義獎勵,如何用少量樣本有效訓練 RL,如何為語言建模讓訓練迅速收斂等。(京東專家)

解決思路 3: 強化學習的序列決策特點和 NLP 的一些任務非常契合,如對話生成、摘要、翻譯等等。在 NLP 中使用強化學習,首先要看適不適合轉化為一個強化學習的問題,能否定義好 agent, environment, action, reward 這些基礎要素。另外在訓練的時候,強化學習比較不穩定,要時刻保持對演算法學習過程的關注,是否在合理的狀態。在不確定的時候,可以適當對交互環境、reward 函數做簡化,甚至可以先觀察隨機策略在一個具體的 setting 下會如何工作。剩下的就是一些具體的技巧了,比如嘗試多個隨機數種子,做數據標準處理等。(騰訊專家)

解決思路 4: 強化學習的一個主要難點在於獎勵函數的定義,對 NLP 也是如此。人類善於定性式評判,但是機器在學習時需要定量,定性到定量的轉變十分困難。要解決這個問題,還是要從評價函數上多下功夫。(小米專家)

解決思路 5: 強化學習的範式對於 NLP 裡面機器翻譯、序列生成、對話系統、聊天機器人等傳統損失函數有缺陷,但又比較容易定義獎勵函數的動態系統有比較好的應用效果。但是強化學習自身的一些問題,譬如樣本利用效率低,對環境過擬合和訓練效果不穩定等問題也是在 NLP 里應用強化學習的痛點。(氪信專家)

問題 5: 為什麼 NLP 模型在處理簡單的常識性日常場景時那麼困難?應該怎麼改善?

解決思路 1: 這其實並不是 NLP 模型獨有的問題,即使是語音、圖像等,在一些日常場景中依然無法做到很好的模式識別。我們認為日常場景簡單主要是因為我們從小到到大積累的各類生活經驗、常識、專業知識,但機器或者單一的模型或者系統所「見過」或者訓練所用到的信息非常少,導致處理日常場景比較困難。如何賦予機器常識推理的能力,是人工智慧領域但共同目標,需要解決如何定義或者構建常識知識,如何讓機器理解常識並學會靈活推理等一系列問題。(科大訊飛)

解決思路 2: 這是因為我們缺乏常識性資料庫、好的常識表示,以及常識在具體領域中的語義理解,因此會影響決策。此外,現在大部分 NLP benchmark 評估標準並不包括常識。因此,學習常識最好的辦法是使用更複雜、大規模、現實世界的任務來促進研究和技術進步,激勵研究者發明可以從良好常識模型中受益的演算法。(京東專家)

解決思路 3: 有些日常性場景已經做得比較好,比如情感分類、開放領域的知識型問答等。當然,通識的全能的 NLP 模型現在還沒有,也不大可能有,個人的看法還是需要一個任務一個任務地去做好。(騰訊專家)

解決思路 4: 日常場景背後包含各種複雜的上下文特徵 (如天氣、位置、時段、人的情緒等),機器難以很好地形式化描述。人類的推理機制十分複雜,機器目前還很難模擬。可能的改善方法一是大量增加訓練數據,另外可以考慮融合知識和數據進行理解和推理。(小米專家)

解決思路 5: 日常場景的口語化和開放性特徵在自然語言處理中都是非常具有難度的。首先,口語化的句子一般語法結構不規整,語氣助詞較多,分析和建模難度增大;其次,日常場景開放性大,沒有足夠大的知識庫來支持日常場景的建模。在相關產品或者系統的開放上需要針對這兩點下功夫:加強對口語化語句的 text normalization 的工作,以及通過流程引導和產品設計減少場景的開放性。

此外,自然語言處理領域其他亟待解決的問題還有任務驅動對話系統、語言資源不足和偏見、預估最壞情況案例性能、領域適應、有意義的文本和對話生成、遷移學習、擁有長期的目標 / 任務導向的人機對話、收集數據的方法、指代消解、詞義消歧、文本摘要、民主化等,這些都是業界比較關心的話題,解決了這些技術上的問題,商業化應用才能更加順利地開展。

典型應用難題和解決思路

問題 1:在機器翻譯領域,目前落地的機器翻譯解決方案大多無法完美滿足日常或重要場合的翻譯需求。以今年博鰲論壇上騰訊翻譯君出現的「車禍事件」為例,讓我們意識到目前的翻譯產品離真正的可用還有很長的路要走。

解決思路: 對此,有專家認為「人機耦合」的理念將被視為未來 AI 落地的關鍵。所謂「人機耦合」的本質,是指人與機器的高效分工合作。通俗地說就是,人去做人擅長的智力工作,機器去做機器擅長的計算工作。這與通常的人工智慧不一樣,通常的人工智慧希望由機器解決一個任務中的所有問題,但往往在很多領域,機器並不能做到對所有問題的高效解決。這個時候就需要人的介入,和機器一起配合完成一個大的事情。

人機耦合之所以會成為 AI 落地的關鍵,便是由於當前人工智慧系統在某些方面,如理解、推理方面的能力不足,需要人工專家的幫助所決定的,這方面需要有一個引導及適應的過程。

自然語言處理技術應用場景受限,有部分原因是當前 AI 技術瓶頸,但是相比若干年前,目前的自然語言處理技術相關的產品正在層出不窮。這些產品都有一些特點:挖掘用戶需求、解決用戶的痛點、技術層面可達。在深入理解各種 AI 能力的發展趨勢,結合不同的場景,因地制宜才是關鍵。

問題 2:在實際使用體驗中會發現,NLP 技術在智能對話機器人系統中,對長句語義理解、理解人的意圖方面仍然面臨較大的困難,很難讓用戶有好的體驗。

由於中文語言的變位性特點等,長句理解一直是 NLP 中的難題,雖然學術界做過很多努力,但是目前來看,離實用還是有距離的。在短期內從技術上解決這個問題並不現實,可以考慮採用一些對話技巧提高用戶體驗。全方位意圖理解也很困難,但是可以通過構建並利用領域知識庫做精某些重要領域。正如氪信所說,可以先完成 80 分,再慢慢去優化剩餘的 20 分的體驗。

也有人認為,這類問題的解決不一定從技術上入手,可以考慮從產品層面,設計相應的產品交互邏輯,來規避一些不必要的問題。要知道當前系統的自然語言理解能力還無法真正意義上達到人類水平,如果設置過於開放的交互模式,往往會帶來很多技術上解決不了的問題。因此,解決這個問題需要技術和產品齊頭並進,互相配合努力。

問題 3:另外一個比較火的應用是語音交互,然而,雖然現在市場上出現很多語音識別軟體、語音交互產品,如智能音箱,但智能音箱等所謂的智能語音產品目前能解決的問題是比較初級簡單的,在複雜場景和問題處理時的表現並不樂觀。至今,似乎還未出現過一款真正意義上的「語音交互」式產品。

語音交互的概念最早在手機助手上得以實現,早期也能完成基本的助手操作。但是這個不是真正意義上的語音交互產品。理想的語音交互應該要滿足人與人之間的語音溝通。從目前看,還有很長的路要走。從發展的模式上,語音交互產品的落地工作也會語音識別一樣,循序漸進地開展,隨著技術的不斷突破,數據的不斷迭代,形成從量變到質變的突破。

小米也從另一個角度做了補充:按照小米首席架構師,小米人工智慧與雲平台副總裁崔寶秋的說法,真正的 AI 產品 (包括語音產品) 要做到無處不在、無所不能、與日俱增、如影隨形。要做到這點,大數據、大知識和大計算缺一不可。另外,個性化、自學習也是這類產品的必要屬性。

氪信也認為,真正的語音交互是想你所想,但這不必要,也不可能是完全基於語言理解技術就能做到的。學術界一直有將圖像、文字、行為等數據融合進行建模的研究,有些研究的 demo 也非常吸引眼球。因而,氪信在金融領域利用全域數據構建的知識圖譜,以及不斷與合作夥伴在多個技術領域展開合作,包括語音、視覺等領域的合作,正是為了打造出真正智能、可落地的交互體驗產品。

未來趨勢

NLP 與語音技術從獨立走向融合協作

隨著自然語言處理技術的不斷發展和用戶的需求的改變,有人認為,自然語言處理技術已經出現從獨立技術走向融合協作的趨勢。對此,五位專家一致表示同意。

AI 的能力一定不是相互獨立的,自然語言處理技術走向融合協作是必然的,就如同人的大腦的多個功能區域協同工作。訊飛在這方面一直都有布局,2015 年底推出的業界首個全雙工語音交互系統 AIUI,其中就把語音技術與語義理解技術做了一定的融合,提升了交互的效果,3 年來在家居、汽車、家電、客服等領域都有成功案例。再比如語音翻譯技術,一個研究趨勢就是源語言語音到目標語言文本之間的端到端翻譯技術,不用經過傳統多個模塊的流水線流程(先語音識別後機器翻譯),這種端到端直接進行語音翻譯的直接好處是緩解了原先流程的錯誤級聯的缺陷。

其他趨勢

氪信:智能問答和語音搜索會是之後的發展趨勢。首先,大的互聯網巨頭會以語音搜索作為自己的門戶入口,其次智能問答(包括自然語言理解,自然語言生成和對話管理系統等)結合智能客服會大幅度提升客服的效率。這兩個需求是剛需,也是目前產學研都在攻克的領域。

科大訊飛:NLP 和語音的發展趨勢是無監督學習。當前的深度學習技術,已經可以在具備大量有監督數據的情況下,實現對數據的充分利用和學習,並解決具體的一個又一個問題。隨著時間的推移,有監督學習的「油水」已經越來越少了,如何讓機器無師自通、自主學習,實現真正意義上的無監督學習,才是下一步的關鍵。比較期待在自然語言的語義建模學習,以及人機對話過程中的自主學習方面出現突破,可以保持關注。

未來商業化潛力大的場景

科大訊飛:具有個性化特性、覆蓋全場景的語音交互,未來非常有機會成為主要的人機交互方式,具有廣闊的商業化應用潛力;同時,語音、圖像、NLP 等人工智慧技術也可以幫助許多傳統行業簡化工作流程、提升工作效率。

小米:NLP 技術在搜索、推薦、問答和對話等場景下仍然有較大的商業化應用潛力。

氪信:未來,基於對話理解與知識圖譜的整合會越來越深入,而其內涵的深度也足以支撐商業願景。