本文转自公众号 读芯术,原文地址

如今,众多机构在不停地寻找更加快速准确的数据准备方法来解决数据挑战,实现机器学习(ML)。但是在将数据导入机器学习模型或任何其它分析项目之前,确保数据干净、一致且准确十分重要。因为当今许多分析都基于数据所属语境,与数据展现出的内容最为接近的人才能够更好的完成任务,也就是能够将直觉、理论和商业知识应用于数据的商业领域专家。

不幸的是,商业用户通常并没有数据科学技能,跨过这个鸿沟有助于快速地从数据中获取价值。因此,很多人都使用数据准备(DP)来帮助数据科学家和机器学习从业者快速准备和注释他们的企业数据,拓展跨企业的数据价值。

数据收集与准备是如何成为可信的ML模型基础的

为了创建一个成功的机器学习模型,公司必须有能力在将其投入生产前对其进行训练、测试和验证。数据准备技术正被用来创建现代机器学习所需的干净、带注释的基础。然而历史上,良好的DP所花费的时间比任何其它机器学习的过程还要多。

减少数据准备所需要的时间变得越来越重要,这样能够留下更多时间进行模型测试、调试和优化,创造更大的价值。同时为数据分析团队和机器学习团队准备数据能够加速机器学习和数据科学项目,带来身临其境的商业消费体验,通过以下六个关键步骤加速并自动化实现数据洞察。

第一步:数据收集

这是到现在为止最为基础的一步,能够处理一些共性的问题,包括:

· 自动确定储存在.csv格式文件中的数据串的相关属性。

· 解析高度嵌套的数据结构,例如将XML或JSON文件中的信息转换为表格形式,方便扫描和模式检测。

· 从外部储存中搜索和识别相关数据。

但是,在考虑DP的解决方案时,要确保其能将多个文件组合成单个输入。比如你有一组包含每日交易信息的文件,但是机器学习需要输入一整年的数据。还要确保制定好针对数据集与机器学习模型中的取样和偏好有关的问题应急处理方案。 

第二步:数据探索与分析

完成数据收集后,就需要评估数据状态,包括查找趋势、异常值、异常的、错误的、不一致的、缺失的或偏斜的信息。这很重要,因为源数据会反映出模型的所有结果,所以确保数据不包含隐藏的偏差十分重要。例如,如果你正在查找全国消费者的行为数据,但是只从一个有限的样本中提取了数据,就有可能缺失了重要的地理区域。这时候就需要在整个数据集,而不仅仅是部分或样本数据集中,找出所有可能导致模型结果出现错误偏差的因素。

第三步:调整并统一数据格式

大数据准备的下一步,就是确保数据的格式与机器学习模型相匹配。如果收集到的数据来自不同数据源,或者数据集被不止一位投资人手动修改过,那么就可能需要检查数据格式中的异常(例如USD5.50与$5.50)。用相同的方式标准化一列中的数值(例如:全拼或缩写的州名)能够确保数据正确汇总。一致的数据格式能够避免这些错误,这样整个数据集都会使用相同的输入格式协议。

第四步:提高数据质量

在这一步,首先需要一个策略来处理数据中的错误数据、缺失值、极值和异常值。如果自助数据准备工具中含有内置的智能工具,可以帮助匹配不同数据库中的数据属性并智能整合,那么则可以用它来帮忙。例如,如果在一个数据库中含有两列,“名”和“姓”,而另一个数据库中含有一列“客户”,它似乎包含了“姓”和“名”的组合,智能算法就应当能够确定一种匹配二者的方法,并将数据库整合成单一的客户视图。

对于连续的变量,务必使用直方图来检查数据分布规律,减少偏差。务必检查可接受值范围外的记录。这种异常值可能是一个输入错误,也可能是一个可能反映未来事件的真实的、有含义的结果。重复或相似的值可能含有相同的信息,应当消除。类似的,在自动删除所有包含缺失值的记录前要小心谨慎,因为过多的删除会使数据集产生偏差,导致不能反应现实情况。  

第五步:特征工程

这一步包含了一门艺术与科学,即将原始数据转化为特征,使其能够更好地将模式导入学习算法。举个例子,数据可以被分解为多个部分来抓住更加具体的关系,例如,按星期几来分析销售表现,而不仅是按月或年。在这种情况下,将星期几从日期列表中单独分开(例如“周一;2017.06.19)可能为算法提供相关性更强的信息。

第六步:将数据拆分为训练集和评估集

最后一步是将数据拆分为两个数据集,一个用于算法训练,另一个用于评估。拆分训练集和评估集时,务必选择数据中非重叠的子集以确保测试正确。将原始数据与你所准备的数据输入机器学习算法时,购买提供版本管理和编目功能的工具,并理清两种数据的关系。这样,就可以依据预测结果追溯输入数据,便于日后改善优化你的模型。

促进商业表现-如何用DP实现ML并解决数据问题

长久以来,数据准备已经被普遍认为能够帮助商业领袖和分析师准备数据,以满足分析、运营和管理需求。通过利用基于云的环境中的众多有价值的属性,亚马逊网络服务(AWS)与Azure提供的自助数据准备已经将其提升至了另一个水平。 

因此,借助内置的智能算法,最接近数据、最熟悉商业环境的商业用户能够快速准确地准备数据集。他们可以通过鼠标点击而非代码,使用直观的可视化应用程序访问、检索、塑造、协作和发布数据,同时提供完整的管理与安全性。IT专业人员可以跨企业和云数据源,维持数据量和多样性的规模,以满足业务场景中及时的可重复的数据服务需求。

像DP一样的解决方案解决了许多数据挑战,实现了ML和数据科学工作流程,使用机器智能强化了应用。更重要的是,它让他们能够将数据传输给信息需求方,让机构中所有的人、流程和系统都变得更加智能。