自然語言生成 – NLG 是 NLP 的重要組成部分,他的主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式。
本文除了介紹 NLG 的基本概念,還會介紹 NLG 的3個 Level、6個步驟和3個典型的應用。
想要了解更多 NLP 相關的內容,請訪問 NLP專題 ,免費提供59頁的NLP文檔下載。
訪問 NLP 專題,下載 59 頁免費 PDF
什麼是 NLG?
NLG 是 NLP 的一部分
NLP = NLU + NLG
自然語言生成 – NLG 是 NLP 的重要組成部分。NLU 負責理解內容,NLG 負責生成內容。
以智能音箱為例,當用戶說「幾點了?」,首先需要利用 NLU 技術判斷用戶意圖,理解用戶想要什麼,然後利用 NLG 技術說出「現在是6點50分」。
自然語言生成 – NLG 是什麼?
NLG 是為了跨越人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。
自然語言生成 – NLG 有2種方式:
- text – to – text:文本到語言的生成
- data – to – text :數據到語言的生成
NLG 的3個 Level
簡單的數據合併:自然語言處理的簡化形式,這將允許將數據轉換為文本(通過類似Excel的函數)。為了關聯,以郵件合併(MS Word mailmerge)為例,其中間隙填充了一些數據,這些數據是從另一個源(例如MS Excel中的表格)中檢索的。
模板化的 NLG :這種形式的NLG使用模板驅動模式來顯示輸出。以足球比賽得分板為例。數據動態地保持更改,並由預定義的業務規則集(如if / else循環語句)生成。
高級 NLG :這種形式的自然語言生成就像人類一樣。它理解意圖,添加智能,考慮上下文,並將結果呈現在用戶可以輕鬆閱讀和理解的富有洞察力的敘述中。
NLG 的6個步驟
第一步:內容確定 – Content Determination
作為第一步,NLG 系統需要決定哪些信息應該包含在正在構建的文本中,哪些不應該包含。通常數據中包含的信息比最終傳達的信息要多。
第二步:文本結構 – Text Structuring
確定需要傳達哪些信息後,NLG 系統需要合理的組織文本的順序。例如在報道一場籃球比賽時,會優先表達「什麼時間」「什麼地點」「哪2支球隊」,然後再表達「比賽的概況」,最後表達「比賽的結局」。
第三步:句子聚合 – Sentence Aggregation
不是每一條信息都需要一個獨立的句子來表達,將多個信息合併到一個句子里表達可能會更加流暢,也更易於閱讀。
第四步:語法化 – Lexicalisation
當每一句的內容確定下來後,就可以將這些信息組織成自然語言了。這個步驟會在各種信息之間加一些連接詞,看起來更像是一個完整的句子。
第五步:參考表達式生成 – Referring Expression Generation|REG
這個步驟跟語法化很相似,都是選擇一些單詞和短語來構成一個完整的句子。不過他跟語法化的本質區別在於「REG需要識別出內容的領域,然後使用該領域(而不是其他領域)的辭彙」。
第六步:語言實現 – Linguistic Realisation
最後,當所有相關的單詞和短語都已經確定時,需要將它們組合起來形成一個結構良好的完整句子。
NLG 的3種典型應用
NLG 的不管如何應用,大部分都是下面的3種目的:
- 能夠大規模的產生個性化內容
- 幫助人類洞察數據,讓數據更容易理解
- 加速內容生產
下面給大家列一些比較典型的應用:
自動寫新聞
某些領域的新聞是有比較明顯的規則的,比如體育新聞。目前很多新聞已經藉助 NLG 來完成了。
聊天機器人
大家了解聊天機器人都是從 Siri 開始的,最近幾年又出現了智能音箱的熱潮。
除了大家日常生活中很熟悉的領域,客服工作也正在被機器人替代,甚至一些電話客服也是機器人。
BI 的解讀和報告生成
幾乎各行各業都有自己的數據統計和分析工具。這些工具可以產生各式各樣的圖表,但是輸出結論和觀點還是需要依賴人。NLG 的一個很重要的應用就是解讀這些數據,自動的輸出結論和觀點。(如下圖所示)
總結
自然語言生成 – NLG 是 NLP 的重要組成部分,他的主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式。
NLG 的3個level:
- 簡單的數據合併
- 模塊化的 NLG
- 高級 NLG
NLG 的6個步驟:
- 內容確定 – Content Determination
- 文本結構 – Text Structuring
- 句子聚合 – Sentence Aggregation
- 語法化 – Lexicalisation
- 參考表達式生成 – Referring Expression Generation|REG
- 語言實現 – Linguistic Realisation
NLG 應用的3個目的:
- 能夠大規模的產生個性化內容
- 幫助人類洞察數據,讓數據更容易理解
- 加速內容生產
NLG 的3個典型應用:
- 自動寫新聞
- 聊天機器人
- BI 的解讀和報告生成
百度百科版本+維基百科
自然語言生成是研究使計算機具有人一樣的表達和寫作的功能。即能夠根據一些關鍵信息及其在機器內部的表達形式,經過一個規划過程,來自動生成一段高質量的自然語言文本。
自然語言處理包括自然語言理解和自然語言生成。自然語言生成是人工智慧和計算語言學的分支,相應的語言生成系統是基於語言信息處理的計算機模型,其工作過程與自然語言分析相反,是從抽象的概念層次開始,通過選擇並執行一定的語義和語法規則來生成文本。
自然語言生成(NLG)是語言技術的一個方面,側重於從結構化數據或結構化表示(如知識庫或邏輯形式)生成自然語言。當這種形式表徵被解釋為心理表徵的模型時,心理語言學家更喜歡語言生成這個術語。
可以說一個NLG系統就像一個翻譯器將數據轉換成自然語言表示。然而,由於自然語言的固有表現力,產生最終語言的方法與編譯器的方法不同。NLG已經存在了很長時間,但商業NLG技術最近才被廣泛使用。
Comments