一文看懂文本挖掘

網絡上存在大量的數字化文本,通過文本挖掘我們可以獲得很多有價值的信息。

本文將告訴大家什麼是文本挖掘,以及他的處理步驟和常用的處理方法。

想要了解更多 NLP 相關的內容,請訪問  NLP專題 ,免費提供59頁的NLP文檔下載。

訪問 NLP 專題,下載 59 頁免費 PDF

 

什麼是文本挖掘?

每到春節期間,買火車票和機票離開一線城市的人暴增——這是數據

再匹配這些人的身份證信息,發現這些人都是從一線城市回到自己的老家——這是信息

回老家跟家人團聚,一起過春節是中國的習俗——這是知識

上面的例子是顯而易見的,但是在實際業務中,有很多不是那麼顯而易見的信息,比如:

  • 每周末流量會有規律性的上升或者下降,這是為什麼?
  • 國慶長假,使用 iPad 購物比例比平時要高,這時為什麼?
  • ……

而文本挖掘的意義就是從數據中尋找有價值的信息,來發現或者解決一些實際問題。

文本挖掘的意義就是從數據中尋找有價值的信息

 

文本挖掘的5個步驟

文本挖掘大致分為以下5個重要的步驟。

文本挖掘的5個步驟

文本挖掘的5個步驟:

  1. 數據收集
  2. 文本預處理
  3. 數據挖掘和可視化
  4. 搭建模型
  5. 模型評估

 

7種文本挖掘的方法

7種文本挖掘的方法

關鍵詞提取:對長文本的內容進行分析,輸出能夠反映文本關鍵信息的關鍵詞。

文本摘要:許多文本挖掘應用程序需要總結文本文檔,以便對大型文檔或某一主題的文檔集合做出簡要概述。

聚類:聚類是未標註文本中獲取隱藏數據結構的技術,常見的有 K均值聚類和層次聚類。更多見 無監督學習

文本分類:文本分類使用監督學習的方法,以對未知數據的分類進行預測的機器學習方法。

文本主題模型 LDA:LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。

觀點抽取:對文本(主要針對評論)進行分析,抽取出核心觀點,並判斷極性(正負面),主要用於電商、美食、酒店、汽車等評論進行分析。

情感分析:對文本進行情感傾向判斷,將文本情感分為正向、負向、中性。用於口碑分析、話題監控、輿情分析。

 

維基百科版本

文本挖掘,也稱為文本數據挖掘,大致相當於文本分析,是從文本中獲取高質量信息的過程。高質量信息通常是通過統計模式學習等手段設計模式和趨勢而得出的。文本挖掘通常涉及構造輸入文本的過程(通常解析,添加一些派生的語言特徵和刪除其他特徵,然後插入到數據庫中),在結構化數據中導出模式,最後評估和解釋輸出。文本挖掘中的「高質量」通常是指相關性,新穎性和興趣的某種組合。典型的文本挖掘任務包括文本分類,文本聚類,概念/實體提取,粒度分類法的生成,情感分析,文檔摘要和實體關係建模(即,命名實體之間的學習關係)。

文本分析涉及信息檢索,詞彙分析以研究詞頻分佈,模式識別,標記 / 注釋,信息提取,數據挖掘技術,包括鏈接和關聯分析,可視化和預測分析。最重要的目標是通過應用自然語言處理(NLP)和分析方法將文本轉換為數據進行分析。 典型的應用是掃描以自然語言編寫的一組文檔,並為文檔集建模以用於預測分類目的,或者用提取的信息填充數據庫或搜索索引。

查看詳情

 

入門類文章(1)