文本預處理是一個被嚴重忽視的話題。本文將介紹文本預處理的真正含義,文本預處理的不同方法,以及估計可能需要多少預處理的方法。
nlp
從基於規則到深度學習,NLP 技術進階三部曲
我們將快速介紹NLP中的3種主要技術方法,以及我們如何使用它們來構建出色的機器!
使用word2vec分析新聞標題並預測文章成功
文章標題的嵌入可以預測受歡迎程度嗎?我們可以從中了解情緒與股票之間的關係?word2vec可以幫助我們回答這些問題,等等。
OpenAI GPT-2:通過可視化理解語言生成
超大型語言模型如何能夠完成您的想法?通過可視化的方式來看看OpenAI 的 GPT-2 是如何生成文章的。讓我們看看可視化是否可以幫助我們更好地理解這個模型。
對話周明:回望過去,展望未來,NLP有哪些發展趨勢?
微軟亞洲研究院副院長、ACL主席周明博士接受“機器之心”專訪,從宏觀層次和技術層面探討了NLP的研究進展及未來發展趨勢。以下為周明博士專訪內容精選。
人工智障 2 : 你看到的AI與智能無關
本文主要是表達 “我不是針對誰,只是現在所有的深度學習都搞不定對話AI”,以及“你看都這樣了,那該怎麼做AI產品”。
Facebook利用跨字嵌入實現無監督機器翻譯
本文轉載自公眾號 微軟研究院AI頭條,原文地址
現有的機器翻譯需要大量的翻譯文本做訓練樣本,這使得機器翻譯只在一小部分樣本數量充足的語言上表現良好,但如何在沒有源翻譯的情況下訓練機器翻譯模型,即無監督訓練,成為了目前熱門的研究話題。Facebook在EMNLP 2018上的論文《Phrase-Based & Neural Unsupervised Machine Translation》利用跨字嵌入(Cross Word Embedding),提升了高達11 BLEU,那麼Facebook是如何實現的呢?
第一步是讓系統學習雙語詞典。系統首先為每種語言中的每個單詞訓練詞嵌入,訓練詞嵌入通過上下文來預測給定單詞周圍的單詞。不同語言的詞嵌入具有相似的鄰域結構,因此可以通過對抗訓練等方法讓系統學習旋轉變換一種語言的詞嵌入,以匹配另一種語言的詞嵌入。基於這些信息,就可以得到一個相對準確的雙語詞典,並基本可以實現逐字翻譯。在得到語言模型和初始的逐字翻譯模型之後,就可以構建翻譯系統的早期版本。
然後將系統翻譯出的語句作為標註過的真實數據進行處理,訓練反向機器翻譯系統,得到一個更加流暢和語法正確的語言模型,並將反向翻譯中人工生成的平行句子與該語言模型提供的校正相結合,以此來訓練這個翻譯系統。
通過對系統的訓練,形成了反向翻譯的數據集,從而改進原有的機器翻譯系統。隨着一個系統得到改進,可以使用它以迭代方式在相反方向上為系統生成訓練數據,並根據需要進行多次迭代。
逐字嵌入初始化、語言建模和反向翻譯是無監督機器翻譯的三個重要原則。將基於這些原理得到的翻譯系統應用於無監督的神經模型和基於計數的統計模型,從訓練好的神經模型開始,使用基於短語模型的其它反向翻譯句子對其進行訓練,最終得到了一個既流暢,準確率又高的模型。
對於無監督機器翻譯,微軟亞洲研究院自然語言計算組也進行了探索。研究人員利用後驗正則(Posterior Regularization)的方式將SMT(統計機器翻譯)引入到無監督NMT的訓練過程中,並通過EM過程交替優化SMT和NMT模型,使得無監督NMT迭代過程中的噪音能夠被有效去除,同時NMT模型也彌補了SMT模型在句子流暢性方面的不足。相關論文《Unsupervised Neural Machine Translation with SMT as Posterior Regularization》已被AAAI 2019接收。
現有模型還“不懂”自然語言:20多位研究者談NLP四大開放性問題
Deep Learning Indaba 2018是由DeepMind主辦的深度學習峰會,於今年9月份在南非斯泰倫博斯舉行。本文基於當時的專家採訪和專題討論寫成,主要探討NLP領域中的4個主要開放性問題。
深度長文:中文分詞的十年回顧
本文回顧了中文分詞在2007-2017十年間的技術進展,尤其是自深度學習滲透到自然語言處理以來的主要工作。我們的基本結論是,中文分詞的監督機器學習方法在從非神經網絡方法到神經網絡方法的遷移中尚未展示出明顯的技術優勢。中文分詞的機器學習模型的構建,依然需要平衡考慮已知詞和未登錄詞的識別問題。