站点图标 产品经理的人工智能学习库

数据科学生命周期的7个步骤–在业务中应用AI

好文分享

好文分享

本文转自《The 7 Steps of the Data Science Lifecycle – Applying AI in Business

全文由机器翻译,不够通顺,但是不影响整体理解

人工智能不是IT,采用人工智能几乎没有像采用传统软件解决方案那样。

虽然软件是确定性的,但AI是概率性的。

用算法哄骗数据中的价值的过程是一个具有挑战性且通常很耗时的过程。虽然非技术AI项目的负责人和执行人员不需要知道如何清理数据,编写Python或针对算法漂移进行调整,但是他们确实必须了解主题专家和数据科学家所经历的实验过程。数据中的价值。

上周,我们介绍了AI部署三个阶段,而本周,我们将更深入地探讨数据科学生命周期本身的七个步骤,以及非技术项目负责人应理解的过程方面。我们将用于探索数据科学生命周期的模型(如下所示)直接受到IBM数据挖掘的跨行业标准流程(或CRISP-DM)模型的启发。我们的模型仅稍有不同-通过较少强调技术细微差别而更多强调业务背景。在本文的其余部分,我们将参考下图中概述的步骤:

资料来源:《 AI部署路线图》

与部署的三个阶段(试点,孵化,部署)中的线性阶段不同,数据科学生命周期步骤循环得相当快,为了从模型中迭代或朝着一个新的阶段迈进,通常会从一个步骤跳到下一个步骤。成功的结果。步骤1和2(业务理解和数据理解)以及步骤4和5(数据准备和建模)通常同时发生,因此甚至没有线性列出。 

数据科学生命周期中的步骤可以按顺序进行考虑,但是在实际部署中并不总是严格遵循粗略的顺序。

例如,在准备数据的过程中,团队可能决定“落后”于业务理解,以便满足额外的预算需求(即,数据需要密集且及时的清理工作,并且需要更多的人员),或者为了澄清业务成果。同样,在评估步骤中,团队可能会在真正部署解决方案之前返回到数据理解或评估项目计划。

与部署的三个阶段一样,我们将通过使用两个示例公司来说明下面的阶段:

示例1 –一家采用产品推荐引擎的电子商务公司。这家电子商务公司看到了改善购物车价值和改善现场用户体验的希望,特别是对于具有购买和活动历史的现有客户而言。

示例2 –采用预测分析应用程序的制造公司。这家制造公司拥有强大的数字基础架构,旨在利用其现有的数据流在制造过程中发现故障和错误之前将其检测出来。

1.业务理解

示例1 –一家采用产品推荐引擎的电子商务公司。讨论公司为实现增长和盈利而拥有的各种选择–与其他选择相比,推荐引擎是否优先?对于此类营销项目,应如何理解我们的客户及其购买行为?

示例2 –采用预测分析应用程序的制造公司。确定如何测量预测模型。想一想哪种机器需要这种预测性维护-哪些风险和故障对公司来说承受的代价是最昂贵的,我们可以首先关注那些风险和崩溃吗?

2.数据理解

示例1 –一家采用产品推荐引擎的电子商务公司。评估客户购买行为的质量。这些数据是否说明了一个连贯的故事?我们是否有信心一个客户帐户是一个人,还是有多个家庭成员(不同的年龄,优先级,性别,偏好)在一个帐户上购物,这使事情变得更加复杂?

示例2 –采用预测分析应用程序的制造公司。查看来自制造设备的现有数据源。来自相似机器的时间序列和遥测数据是否以相似的方式存储并以相同的方式存储?我们可以确保数据可靠吗?它在哪里最不可靠,我们可以通过这种方式减少影响数据的因素吗?

3.评估项目需求

示例1 –一家采用产品推荐引擎的电子商务公司。分配给项目的跨职能团队可能会决定他们需要访问更多历史数据以及清理和组织资源的资源。他们还可以确定-鉴于业务不同部门的ROI机会-他们将希望将推荐引擎应用于两个非常具体的产品类别(而不是归档中的所有产品),并且团队可能会要求访问专用的业务那部分的主题专家。

示例2 –采用预测分析应用程序的制造公司。团队确定他们计划在各种设备上安装的传感器的数量和类型,以及为正确设置,解释和理解这些新数据流以成功运行所需的特定主题专家。 PoC。

4.数据准备

示例1 –一家采用产品推荐引擎的电子商务公司。该团队将清理和统一历史数据,并确定新数据需要采用的特定格式,以帮助提供建议引擎。数据科学家和主题专家共同努力,确定购买和用户行为数据中的功能,他们认为这对于最初训练其模型最重要。

示例2 –采用预测分析应用程序的制造公司。数据科学团队与工程师和机械师密切合作,以确定他们旨在放置传感器的设备的最重要的遥测信号(热量,振动)。然后,收集和分析初始数据集,并按时间序列与来自中央制造软件的现有数据流进行组合。重新格式化或重组传感器和核心系统数据,使其可以用于训练模型。

5.造型

示例1 –一家采用产品推荐引擎的电子商务公司。牢记团队决定的成功指标-数据科学团队在关注的特定产品类别中测试新产品推荐。团队成员以及(可能)来自一小群用户都使用了反馈,以便针对改进的购物车价值和转化率进行校准。使用数据中的新功能或在不同级别进行加权,以实现所需的结果。

示例2 –采用预测分析应用程序的制造公司。该团队将使用过去的维修和故障数据以及新的遥测数据一起工作,以预测更可能发生故障的机器。为了找到更多需要维修的机器实例,这可能需要较长的时间范围,或者需要使用相对大量的机器进行初始测试,因为只有这些事件才能帮助告知模型的预测能力。

6.评估

示例1 –一家采用产品推荐引擎的电子商务公司。随着时间的流逝,团队将根据以前的产品列表或推荐方法来衡量他们的新产品推荐。在此评估阶段,数据科学家和主题专家会共同确定似乎有效的方法,无效的方法以及如何调整推荐模型的模型,数据或用户体验,以更好地推动实现预期结果(更高的购物车价值,更高的用户转化为客户的转化率)。

示例2 –采用预测分析应用程序的制造公司。跨职能团队评估了预测模型建议,确定它们是否比以前的方法明显更好或更差。在概念验证或孵化的早期阶段,这可能是定性的(即,我们是否相信我们以前的方法会检测到这种设备故障?),而在实际部署中,此度量将是定量的(即,多少?每月发生一次故障?每月X类机器发生多少正常运行时间损失?预测性维护系统的误报率是多少?)。

7.部署

示例1 –一家采用产品推荐引擎的电子商务公司

示例2 –采用预测分析应用程序的制造公司。 

退出移动版