香儂科技提出中文字型的深度學習模型Glyce，橫掃13項中文NLP記錄

本文轉載自公眾號 PaperWeekly，原文地址

香儂科技近期提出 Glyce，首次在深度學習的框架下使用中文字形信息（Glyph），橫掃 13 項中文自然語言任務記錄，其中包括：(1) 字級別語言模型 (2) 詞級別語言模型 (3) 中文分詞 (4) 命名實體識別 (5) 詞性標註 (6) 句法依存分析 (7) 語義決策標註 (8) 語義相似度 (9) 意圖識別 (10) 情感分析 (11) 機器翻譯 (12) 文本分類 (13) 篇章分析。

論文鏈接：https://arxiv.org/abs/1901.10125

論文簡介

漢字是象形文字（logographic language），歷經幾千年的歷史演變，是當今世界上依然被使用的最古老的文字。漢字與英文有本質的區別，因為大多數漢字的起源是圖形，漢字的字形中蘊藏著豐富的語音信息。即便是不識字的人，有時候也可以大概猜到一個字的大概意思。

相反，英文很難從字形中猜出語義，因為英文是 alphabetic language，所基於的羅馬字母反應更多的是文字的讀音，而並不是語義。

然而當今中文自然語言處理的方法，大多是基於英文 NLP 的處理流程：以詞或者字的 ID 為基準，每一個詞或者字有一個對應的向量，並沒有考慮漢語字形的信息。

Glyce 提出了基於中文字形的語義表示：把漢字當成一個圖片，然後用卷積神經網路學習出語義，這樣便可以充分利用漢字中的圖形信息，增強了深度學習向量的語意表達能力。Glyce 在總共 13 項、近乎所有中文自然語言處理任務上刷新了歷史記錄。

論文詳解

理論上將中文字元當成圖片直接輸入至卷積神經網路便可以。但是這樣實現的效果並不好。Glyce 試圖從三個方面解決這個問題：

運用不同歷史時期的中文字元

如今廣泛使用的簡體中文字元是經過漫長的歷史演變而來的。簡體中文書寫更加方便，但是同時也丟失了大量的原始圖形信息。Glyce 提出需要運用不同歷史時期的中文字元，從周商時期的金文，漢代的隸書，魏晉時期的篆書，南北朝時期的魏碑，以及繁體、簡體中文。這些不同類別的字元在語義上更全面涵蓋了語義信息。

提出符合中文字形的Tianzige（田字格）-CNN架構

Glyce 提出了一些修改 CNN 內部架構的意見，讓模型更適合處理中文字形。主要的改進集中在兩個方面，第一是為了防止過擬合，減小 CNN 中所涉及的參數量，比如將 conv 層變成 grouped conv。還有第二個比較有意思的點是最後一層通過 pooling 將圖像輸入變成 2*2 的 grids。文中提到這個模型非常符合中文的田字格模式，而田字格結構其實非常符合中文文字的書寫順序。

Multi-task Learning（多任務學習）

相比於圖像分類任務大多有幾百萬或者上千萬的訓練數據，漢字只有上千個。即便算上不同字體，模型只能夠見到幾萬個不同的字元圖像樣本。這對圖像的泛化能力提出了挑戰。

為了解決這個問題，Glyce 提出需要用圖像分類任務作為輔助模型（auxiliary training objective）。CNN 輸出的 glyph 向量將同時被輸入到基於字元的分類任務中。實際的訓練函數是 task-specific 的損失函數和字形圖像識別損失函數的線性加權：

Glyce中文字向量

Glyce 將來自不同歷史時期的相同字元堆積形成不同的 channel，並且通過 CNN 對這些圖像信息進行編碼得到了 glyph 向量。得到的 glyph 向量輸入到圖像分類模型得到字形圖像識別的損失函數。然後通過 highway network 或者全連接的方式將 glyph 向量和對應的中文 char-id 向量進行結合得到了最終的 Glyce 中文字向量。

Glyce中文詞向量

由於中文的詞都可以看成是由中文的字組成，Glyce 通過充分利用組成中文詞中的漢字得到更加細粒度的詞的語意信息。使用 Glyce 字向量的方式得到詞中的對應字的表示。

因為中文詞中字的個數的不確定性，Glyce 通過 max pooling 層對所有得到的 Glyce 字向量進行特徵的篩選，用來保持了維度的不變性。最終得到的向量通過和 word-id 向量進行拼接得到最終的 Glyce 中文詞向量。

實驗

使用 Glyce 的編碼方式分別在：（1）字級別語言模型（2）詞級別語言模型（3）中文分詞（4）命名實體識別（5）詞性標註（6）句法依存分析（7）語義決策標註（8）語義相似度（9）意圖識別（10）情感分析（11）機器翻譯（12）文本分類（13）篇章分析，共 13 個中文自然語言處理任務上進行了實驗。

實驗結果刷新了所有實驗任務的記錄，充分展示了 Glyce 在中文向量語意表示編碼的有效性和魯棒性，並且展示了 Glyce 的設計優勢。

字級別語言模型

字級別語言模型採用了 Chinese Tree-Bank 6.0 （CTB6.0）語料，並且採用 PPL（困惑度）作為最終的評價指標。通過使用 8 種歷史字體和圖像分類的損失函數，基於字級別的語言模型的 PPL（困惑度）達到了 50.67。

詞級別語言模型

詞級別的語言模型採用了 Chinese Tree-Bank 6.0 （CTB6.0）語料，並且採用 PPL（困惑度）作為最終的評價指標。經過對照實驗，word-ID 向量和 glyce 詞向量在詞級別的語言模型上效果最好，PPL（困惑度）達到了 175.1。

中文分詞

中文分詞任務採用了 CTB6，PKU 和 Weibo 的數據集。Glyce 字向量結合之前最優的模型 Lattice-LSTM 在 CTB6 和 Weibo 數據上達到了新的最優的結果。在 PKU 的數據上達到了呵之前最優結果相同的結果。

命名實體識別

命名實體識別採用了 OntoNotes，MSRA 和 resume 的數據集，並且採用 F1 作為最終的評價指標。實驗結果表示，Glyce-char 模型刷新了這三個數據集的新紀錄。在 OntoNotes，MSRA，Resume 上分別超過了之前最優模型 Lattice-LSTM 0.93，0.71 和 1.21 個點。

詞性標註

詞性標註採用了 CTB5， CTB6，UD1 的數據集。單個模型使用 Glyce 詞向量在 CTB5 和 UD1 數據上分別超過之前的 state-of-the-art 1.54 和 1.36 個百分點。Glyce 單模型效果在 CTB5 和 UD1 上超過之前多模型集合的最優結果。

句法依存分析

句法依存分析採用了 Chinese Penn Treebank 5.1 的數據。Glyce 詞向量結合之前最優的 Biaffien 模型把結果在 UAS 和 LAS 數據集上和最優結果比較分別提高了 0.9 和 0.8。

語義決策標註

語義決策標註的實驗採用了 CoNLL-2009 的數據，並且採用 F1 作為最終的評價指標。最優模型 k-order pruning 和 Glyce 詞向量超過了之前最優模型 0.9 的 F1 值。

語義相似度

語義相似度的實驗採用了 BQ Corpus 的數據集，並且採用準確率和 F1 作為最終的評價指標。Glyce 字向量結合 BiMPM 模型在之前最優結果的基礎上提高了 0.97 個點，成為了新的 state-of-the-art。

意圖識別

意圖識別的任務使用了 LCQMC 的數據集進行了實驗，並且採用準確率和 F1 作為最終的評價指標。通過訓練 BiMPM 結合 Glyce 字向量在 F1 上超過了之前的最優結果 1.4，在 ACC 上超過了之前的最優結果 1.9。

情感分析

情感分析的任務採用了 Dianping，JD Full, JD Binary 三個數據集，並且採用準確率作為最終的評價指標。Glyce 字向量結合 Bi-LSTM 模型分別在這三個數據集上面取得了最優的結果。

中文-英文機器翻譯

中文-英文機器翻譯任務的訓練集來自 LDC 語料，驗證集來自 NIST2002 語料。測試集分別是 NIST2003，2004，2005，2006 和 2008，並且採用 BLEU 作為最終的評價指標。Glyce 詞向量結合 Seq2Seq+Attention 模型，測試集上 BLEU 值達到了新的最優結果。

文本分類

文本分類的任務採用了 Fudan corpus, IFeng, ChinaNews 三個數據集，並且採用準確率作為評價指標。Glyce 字向量結合 Bi-LSTM 模型在這三個數據集上分別取得了最優的結果。

篇章分析

篇章分析的任務採用了 Chinese Discourse Treebank （CDTB）的數據集，並且採用準確率作為評價指標。採用了之前 SOTA 模型 RvNN 和 Glyce 字向量，刷新了在 CDTB 數據上的準確率的最優結果。

總結

提出的 Glyce 的中文字元級表示模型，通過使用不同歷史時期的字元圖像，豐富了中文字向量和詞向量的語意信息。通過使用 Glyce 對中文字元的建模方式，我們刷新了幾乎所有的中文自然語言處理任務的 state-of-the-art。Glyce 的成功為以中文為代表的象形文字提供了新的研究方向。

文章作者

Glyce 作者數量多達九個。Wei Wu（吳煒）與 Yuxian Meng（孟昱先）並列為第一作者。Wei Wu（吳煒）在字元級語言模型任務上設計並實現了第一個 Glyce-char 模型。Yuxian Meng（孟昱先）提出了 Tianzige-CNN 結構，圖像分類作為輔助目標函數和衰變 λ。Jiwei Li（李紀為）提出使用不同歷史時期的中文字元。Yuxian Meng（孟昱先）負責詞級語言模型和意圖分類的結果；Wei Wu（吳煒）負責中文分詞，命名實體識別和詞性標註的結果。Qinghong Han（韓慶宏）負責語義角色標註的結果；Xiaoya Li（李曉雅）負責中文-英文機器翻譯的結果；Muyu Li（李慕宇）負責句法依存分析和詞性標註的結果；Mei Jie（梅傑）負責篇章分析的結果；Nie Ping（聶平）負責語義相似度的結果；Xiaofei Sun（孫曉飛）負責文本分類和情感分析的結果。Jiwei Li（李紀為）為 Glyce 通訊作者。

香儂科技提出中文字型的深度學習模型Glyce，橫掃13項中文NLP記錄

論文簡介

論文詳解

實驗

總結

文章作者

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

關注我們的公眾號：easyai-tech

論文簡介

論文詳解

實驗

總結

文章作者

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech