挖矿是希望从泥土中挖出值钱的东西,文本挖掘则是从大量的文本中提炼出有价值的“信息”。

小白版本

每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据

再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息

回老家跟家人团聚,一起过春节是中国的习俗——这是知识

上面的例子是显而易见的,但是在实际业务中,有很多不是那么显而易见的信息,比如:

  • 每周末流量会有规律性的上升或者下降,这是为什么?
  • 国庆长假,使用 iPad 购物比例比平时要高,这时为什么?
  • ……

而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。

文本挖掘就是从数据中寻找有价值的信息
文本挖掘就是从数据中寻找有价值的信息

文本挖掘大致分为以下5个重要的步骤:

文本挖掘的5个步骤
文本挖掘的5个步骤
  1. 数据收集
  2. 数据预处理
  3. 数据挖掘和可视化
  4. 搭建模型
  5. 模型评估

 

维基百科版本

文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。高质量信息通常是通过统计模式学习等手段设计模式和趋势而得出的。文本挖掘通常涉及构造输入文本的过程(通常解析,添加一些派生的语言特征和删除其他特征,然后插入到数据库中),在结构化数据中导出模式,最后评估和解释输出。文本挖掘中的“高质量”通常是指相关性,新颖性和兴趣的某种组合。典型的文本挖掘任务包括文本分类,文本聚类,概念/实体提取,粒度分类法的生成,情感分析,文档摘要和实体关系建模(即,命名实体之间的学习关系)。

文本分析涉及信息检索,词汇分析以研究词频分布,模式识别,标记 / 注释,信息提取,数据挖掘技术,包括链接和关联分析,可视化和预测分析。最重要的目标是通过应用自然语言处理NLP)和分析方法将文本转换为数据进行分析。 典型的应用是扫描以自然语言编写的一组文档,并为文档集建模以用于预测分类目的,或者用提取的信息填充数据库或搜索索引。

查看详情

 

【入门】NLP(1)— 初识文本挖掘

【视野】文本数据分析:文本挖掘还是自然语言处理?

【实践】用 Python 做文本挖掘的流程

【实践】Python英文文本预处理:步骤、使用工具及示例

【实践】以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程