收集数据
主要是三个方面:
第一,我们会通过爬虫去爬取相关的行业数据。
第二,我们的云端产品产生的日志数据,会直接收集到我们的数据平台里。
第三,客户提供的素材,我们会把它转化成数据和知识。
处理数据
非结构化数据:首先我们会对收集到数据进行数据清洗,然后再按照知识的分类通过机器+人工方式将其归类,再通过一些手段(如规则等)做一些粗颗粒度的标注,之后由人工确认,确认完后入库。
半结构化数据:客户提供的原始带格式文档,通过格式规则分析或者机器学习模型等手段来进行分类或者聚类等辅助处理,然后再进行人工梳理,最后入库。
机器做前期辅助,人工做最终的确认,而不是机器处理之后直接入库。
小i有一个大的数据平台和一个标注系统,还有一个实验室系统,共同运作来产生这些行业训练数据以及行业背景知识,然后以领域语义库的形式部署到实际系统中。
Comments