本文轉載自公眾號 PaperWeekly原文地址

香儂科技近期提出 Glyce,首次在深度學習的框架下使用中文字形信息(Glyph),橫掃 13 項中文自然語言任務記錄,其中包括:(1) 字級別語言模型 (2) 詞級別語言模型 (3) 中文分詞 (4) 命名實體識別 (5) 詞性標註 (6) 句法依存分析 (7) 語義決策標註 (8) 語義相似度 (9) 意圖識別 (10) 情感分析 (11) 機器翻譯 (12) 文本分類 (13) 篇章分析。

論文鏈接:https://arxiv.org/abs/1901.10125

論文簡介

漢字是象形文字(logographic language),歷經幾千年的歷史演變,是當今世界上依然被使用的最古老的文字。漢字與英文有本質的區別,因為大多數漢字的起源是圖形,漢字的字形中蘊藏著豐富的語音信息。即便是不識字的人,有時候也可以大概猜到一個字的大概意思。

相反,英文很難從字形中猜出語義,因為英文是 alphabetic language,所基於的羅馬字母反應更多的是文字的讀音,而並不是語義。 

然而當今中文自然語言處理的方法,大多是基於英文 NLP 的處理流程:以詞或者字的 ID 為基準,每一個詞或者字有一個對應的向量,並沒有考慮漢語字形的信息。 

Glyce 提出了基於中文字形的語義表示:把漢字當成一個圖片,然後用卷積神經網路學習出語義,這樣便可以充分利用漢字中的圖形信息,增強了深度學習向量的語意表達能力。Glyce 在總共 13 項、近乎所有中文自然語言處理任務上刷新了歷史記錄。 

圖1:與英文不同,中文是象形文字,字形中蘊藏著豐富的語義信息

論文詳解

理論上將中文字元當成圖片直接輸入至卷積神經網路便可以。但是這樣實現的效果並不好。Glyce 試圖從三個方面解決這個問題: 

運用不同歷史時期的中文字元

如今廣泛使用的簡體中文字元是經過漫長的歷史演變而來的。簡體中文書寫更加方便,但是同時也丟失了大量的原始圖形信息。Glyce 提出需要運用不同歷史時期的中文字元,從周商時期的金文,漢代的隸書,魏晉時期的篆書,南北朝時期的魏碑,以及繁體、簡體中文。這些不同類別的字元在語義上更全面涵蓋了語義信息。

圖2:Glyce提出運用不同歷史時期的中文字元表示

提出符合中文字形的Tianzige(田字格)-CNN架構

Glyce 提出了一些修改 CNN 內部架構的意見,讓模型更適合處理中文字形。主要的改進集中在兩個方面,第一是為了防止過擬合,減小 CNN 中所涉及的參數量,比如將 conv 層變成 grouped conv。還有第二個比較有意思的點是最後一層通過 pooling 將圖像輸入變成 2*2 的 grids。文中提到這個模型非常符合中文的田字格模式,而田字格結構其實非常符合中文文字的書寫順序。

Multi-task Learning(多任務學習)

相比於圖像分類任務大多有幾百萬或者上千萬的訓練數據,漢字只有上千個。即便算上不同字體,模型只能夠見到幾萬個不同的字元圖像樣本。這對圖像的泛化能力提出了挑戰。

為了解決這個問題,Glyce 提出需要用圖像分類任務作為輔助模型(auxiliary training objective)。CNN 輸出的 glyph 向量將同時被輸入到基於字元的分類任務中。實際的訓練函數是 task-specific 的損失函數和字形圖像識別損失函數的線性加權:

圖3:Glyce字向量與Glyce詞向量

Glyce中文字向量

Glyce 將來自不同歷史時期的相同字元堆積形成不同的 channel,並且通過 CNN 對這些圖像信息進行編碼得到了 glyph 向量。得到的 glyph 向量輸入到圖像分類模型得到字形圖像識別的損失函數。然後通過 highway network 或者全連接的方式將 glyph 向量和對應的中文 char-id 向量進行結合得到了最終的 Glyce 中文字向量。

Glyce中文詞向量 

由於中文的詞都可以看成是由中文的字組成,Glyce 通過充分利用組成中文詞中的漢字得到更加細粒度的詞的語意信息。使用 Glyce 字向量的方式得到詞中的對應字的表示。

因為中文詞中字的個數的不確定性,Glyce 通過 max pooling 層對所有得到的 Glyce 字向量進行特徵的篩選,用來保持了維度的不變性。最終得到的向量通過和 word-id 向量進行拼接得到最終的 Glyce 中文詞向量。

實驗

使用 Glyce 的編碼方式分別在:(1)字級別語言模型(2)詞級別語言模型(3)中文分詞(4)命名實體識別(5)詞性標註(6)句法依存分析(7)語義決策標註(8)語義相似度(9)意圖識別(10)情感分析(11)機器翻譯(12)文本分類(13)篇章分析,共 13 個中文自然語言處理任務上進行了實驗。

實驗結果刷新了所有實驗任務的記錄,充分展示了 Glyce 在中文向量語意表示編碼的有效性和魯棒性,並且展示了 Glyce 的設計優勢。

字級別語言模型

字級別語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。通過使用 8 種歷史字體和圖像分類的損失函數,基於字級別的語言模型的 PPL(困惑度)達到了 50.67。

詞級別語言模型

詞級別的語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。經過對照實驗,word-ID 向量和 glyce 詞向量在詞級別的語言模型上效果最好,PPL(困惑度)達到了 175.1。

中文分詞

中文分詞任務採用了 CTB6,PKU 和 Weibo 的數據集。Glyce 字向量結合之前最優的模型 Lattice-LSTM 在 CTB6 和 Weibo 數據上達到了新的最優的結果。在 PKU 的數據上達到了呵之前最優結果相同的結果。

命名實體識別

命名實體識別採用了 OntoNotes,MSRA 和 resume 的數據集,並且採用 F1 作為最終的評價指標。實驗結果表示,Glyce-char 模型刷新了這三個數據集的新紀錄。在 OntoNotes,MSRA,Resume 上分別超過了之前最優模型 Lattice-LSTM 0.93,0.71 和 1.21 個點。

詞性標註

詞性標註採用了 CTB5, CTB6,UD1 的數據集。單個模型使用 Glyce 詞向量在 CTB5 和 UD1 數據上分別超過之前的 state-of-the-art 1.54 和 1.36 個百分點。Glyce 單模型效果在 CTB5 和 UD1 上超過之前多模型集合的最優結果。 

句法依存分析

句法依存分析採用了 Chinese Penn Treebank 5.1 的數據。Glyce 詞向量結合之前最優的 Biaffien 模型把結果在 UAS 和 LAS 數據集上和最優結果比較分別提高了 0.9 和 0.8。

語義決策標註

語義決策標註的實驗採用了 CoNLL-2009 的數據,並且採用 F1 作為最終的評價指標。最優模型 k-order pruning 和 Glyce 詞向量超過了之前最優模型 0.9 的 F1 值。

語義相似度

語義相似度的實驗採用了 BQ Corpus 的數據集,並且採用準確率和 F1 作為最終的評價指標。Glyce 字向量結合 BiMPM 模型在之前最優結果的基礎上提高了 0.97 個點,成為了新的 state-of-the-art。

意圖識別

意圖識別的任務使用了 LCQMC 的數據集進行了實驗,並且採用準確率和 F1 作為最終的評價指標。通過訓練 BiMPM 結合 Glyce 字向量在 F1 上超過了之前的最優結果 1.4,在 ACC 上超過了之前的最優結果 1.9。

情感分析

情感分析的任務採用了 Dianping,JD Full, JD Binary 三個數據集,並且採用準確率作為最終的評價指標。Glyce 字向量結合 Bi-LSTM 模型分別在這三個數據集上面取得了最優的結果。

中文-英文機器翻譯

中文-英文機器翻譯任務的訓練集來自 LDC 語料,驗證集來自 NIST2002 語料。測試集分別是 NIST2003,2004,2005,2006 和 2008,並且採用 BLEU 作為最終的評價指標。Glyce 詞向量結合 Seq2Seq+Attention 模型,測試集上 BLEU 值達到了新的最優結果。

文本分類

文本分類的任務採用了 Fudan corpus, IFeng, ChinaNews 三個數據集,並且採用準確率作為評價指標。Glyce 字向量結合 Bi-LSTM 模型在這三個數據集上分別取得了最優的結果。

篇章分析

篇章分析的任務採用了 Chinese Discourse Treebank (CDTB)的數據集,並且採用準確率作為評價指標。採用了之前 SOTA 模型 RvNN 和 Glyce 字向量,刷新了在 CDTB 數據上的準確率的最優結果。

總結

提出的 Glyce 的中文字元級表示模型,通過使用不同歷史時期的字元圖像,豐富了中文字向量和詞向量的語意信息。通過使用 Glyce 對中文字元的建模方式,我們刷新了幾乎所有的中文自然語言處理任務的 state-of-the-art。Glyce 的成功為以中文為代表的象形文字提供了新的研究方向。

文章作者

Glyce 作者數量多達九個。Wei Wu(吳煒)與 Yuxian Meng(孟昱先)並列為第一作者。Wei Wu(吳煒)在字元級語言模型任務上設計並實現了第一個 Glyce-char 模型。Yuxian Meng(孟昱先)提出了 Tianzige-CNN 結構,圖像分類作為輔助目標函數和衰變 λ。Jiwei Li(李紀為)提出使用不同歷史時期的中文字元。Yuxian Meng(孟昱先)負責詞級語言模型和意圖分類的結果;Wei Wu(吳煒)負責中文分詞,命名實體識別和詞性標註的結果。Qinghong Han(韓慶宏)負責語義角色標註的結果;Xiaoya Li(李曉雅)負責中文-英文機器翻譯的結果;Muyu Li(李慕宇)負責句法依存分析和詞性標註的結果;Mei Jie(梅傑)負責篇章分析的結果;Nie Ping(聶平)負責語義相似度的結果;Xiaofei Sun(孫曉飛)負責文本分類和情感分析的結果。Jiwei Li(李紀為)為 Glyce 通訊作者。