Encoder-Decoder 是 NLP 領域裡的一種模型框架。它被廣泛用於機器翻譯、語音識別等任務。
本文將詳細介紹 Encoder-Decoder、Seq2Seq 以及他們的升級方案Attention。
想要了解更多 NLP 相關的內容,請訪問 NLP專題 ,免費提供59頁的NLP文檔下載。
訪問 NLP 專題,下載 59 頁免費 PDF
什麼是 Encoder-Decoder ?
Encoder-Decoder 模型主要是 NLP 領域裡的概念。它並不特值某種具體的演算法,而是一類演算法的統稱。Encoder-Decoder 算是一個通用的框架,在這個框架下可以使用不同的演算法來解決不同的任務。
Encoder-Decoder 這個框架很好的詮釋了機器學習的核心思路:
將現實問題轉化為數學問題,通過求解數學問題,從而解決現實問題。
Encoder 又稱作編碼器。它的作用就是「將現實問題轉化為數學問題」
Decoder 又稱作解碼器,他的作用是「求解數學問題,並轉化為現實世界的解決方案」
把 2 個環節連接起來,用通用的圖來表達則是下面的樣子:
關於 Encoder-Decoder,有2 點需要說明:
- 不論輸入和輸出的長度是什麼,中間的「向量 c」 長度都是固定的(這也是它的缺陷,下文會詳細說明)
- 根據不同的任務可以選擇不同的編碼器和解碼器(可以是一個 RNN ,但通常是其變種 LSTM 或者 GRU )
只要是符合上面的框架,都可以統稱為 Encoder-Decoder 模型。說到 Encoder-Decoder 模型就經常提到一個名詞—— Seq2Seq。
什麼是 Seq2Seq?
Seq2Seq(是 Sequence-to-sequence 的縮寫),就如字面意思,輸入一個序列,輸出另一個序列。這種結構最重要的地方在於輸入序列和輸出序列的長度是可變的。例如下圖:
如上圖:輸入了 6 個漢字,輸出了 3 個英文單詞。輸入和輸出的長度不同。
Seq2Seq 的由來
在 Seq2Seq 框架提出之前,深度神經網路在圖像分類等問題上取得了非常好的效果。在其擅長解決的問題中,輸入和輸出通常都可以表示為固定長度的向量,如果長度稍有變化,會使用補零等操作。
然而許多重要的問題,例如機器翻譯、語音識別、自動對話等,表示成序列後,其長度事先並不知道。因此如何突破先前深度神經網路的局限,使其可以適應這些場景,成為了13年以來的研究熱點,Seq2Seq框架應運而生。
「Seq2Seq」和「Encoder-Decoder」的關係
Seq2Seq(強調目的)不特指具體方法,滿足「輸入序列、輸出序列」的目的,都可以統稱為 Seq2Seq 模型。
而 Seq2Seq 使用的具體方法基本都屬於Encoder-Decoder 模型(強調方法)的範疇。
總結一下的話:
- Seq2Seq 屬於 Encoder-Decoder 的大範疇
- Seq2Seq 更強調目的,Encoder-Decoder 更強調方法
Encoder-Decoder 有哪些應用?
機器翻譯、對話機器人、詩詞生成、代碼補全、文章摘要(文本 – 文本)
「文本 – 文本」 是最典型的應用,其輸入序列和輸出序列的長度可能會有較大的差異。
Google 發表的用Seq2Seq做機器翻譯的論文《Sequence to Sequence Learning with Neural Networks》
語音識別(音頻 – 文本)
語音識別也有很強的序列特徵,比較適合 Encoder-Decoder 模型。
Google 發表的使用Seq2Seq做語音識別的論文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》
圖像描述生成(圖片 – 文本)
通俗的講就是「看圖說話」,機器提取圖片特徵,然後用文字表達出來。這個應用是計算機視覺和 NLP 的結合。
圖像描述生成的論文《Sequence to Sequence – Video to Text》
Encoder-Decoder 的缺陷
上文提到:Encoder(編碼器)和 Decoder(解碼器)之間只有一個「向量 c」來傳遞信息,且 c 的長度固定。
為了便於理解,我們類比為「壓縮-解壓」的過程:
將一張 800X800 像素的圖片壓縮成 100KB,看上去還比較清晰。再將一張 3000X3000 像素的圖片也壓縮到 100KB,看上去就模糊了。
Encoder-Decoder 就是類似的問題:當輸入信息太長時,會丟失掉一些信息。
Attention 解決信息丟失問題
Attention 機制就是為了解決「信息過長,信息丟失」的問題。
Attention 模型的特點是 Eecoder 不再將整個輸入序列編碼為固定長度的「中間向量 C」 ,而是編碼成一個向量的序列。引入了 Attention 的 Encoder-Decoder 模型如下圖:
這樣,在產生每一個輸出的時候,都能夠做到充分利用輸入序列攜帶的信息。而且這種方法在翻譯任務中取得了非常不錯的成果。
Attention 是一個很重要的知識點,想要詳細了解 Attention,請查看《一文看懂 Attention(本質原理+3大優點+5大類型)》
2 Comments
有點客觀,缺乏主觀
大部分內容的確是網路上資料的匯總,只是重寫成了更容易理解的表達方式