背景

本文是关于产品经理如何将机器学习融入其产品的更大型独立研究(见下文)中的一部分。它由Ryan Dingler我自己在加州大学伯克利分校的MBA学习,在Vince Law的帮助下担任我们的指导老师

该研究旨在了解产品经理如何设计,规划和构建支持机器学习的产品。为了达到这种理解,我们采访了各个技术公司的15位产品开发专家。在代表的15家公司中,14家公司的市值超过10亿美元,11家公开上市,6家是B2C,9家是B2B。

产品经理指导ML系列:

识别机会

如果你在过去几年里曾经在一个产品团队工作过,你可能听过有人(可能是PM)问过,“我们不能只用机器学习(ML)解决这个问题吗?”

ML有一个共同的概念,即可以解决产品经理面临的诸多挑战。通过我们的手机上的虚拟助手和每次购买后的个性化建议,很难否认ML正在改变产品的构建和消费方式。但是,通常很难知道在产品中利用ML的位置。

为什么这很重要?

谈到机器学习,找到接下来要解决的问题至关重要。数据科学家和ML工程师等资源有限。为您的团队选择错误的项目不仅成本高昂,而且还会损害士气,客户信任,并导致产品失败。

正确的问题识别可以帮助防止您的工作进入ML模型和产品的坟场。

机器学习有什么问题可以解决?

在我们的研究中,我们遇到了各种各样的公司在他们的产品中使用ML的方式。但是,我们注意到所有这些用例中的一些常见趋势,并将它们分解为四个(有时是重叠的)问题区域:检测异常,过滤信息,调节内容以及自动执行重复性任务。

这些领域旨在提供哪些类型的业务问题可能是ML的良好候选者的示例。

注意:我们提供了一些与我们在研究中遇到的相似的示例。确定的区域是我们在采访中直接观察到的区域,并非完整列表。

检测异常

ML非常适合检测数据中的模式。可以利用这种优势来帮助用户更轻松地找到与典型模式不匹配的数据点。在我们的研究中,我们发现公司采用监督学习,无监督学习,甚至两者结合进行异常检测。选择的方法取决于用例。

检测异常

例子

监督:公司通过对数亿条款中的欺诈或错误进行抽查,定期审核其会计账簿。由于此任务所需的技术领域知识,这些审核通常非常手动。多年的这些手动审核结果为监督模型提供了出色的标记数据。这些模型产生易于解释和解释的输出。也就是说,模型可能会错过与培训集不相似的新型欺诈或错误。

无人监管:在数字广告中,没有任何控制措施,发布商有很大的动机点击其网站上的广告,并让公司点击竞争对手的广告。简单的启发式方法可以防止一些欺诈行为,但是无监督的模型可以在数据中找到新的模式,使它们在检测不同类型的欺诈方面非常出色。根据用户IP地址,交易和时间等数据,无监督模型可以识别不良参与者。然而,这些模型通常会产生不透明且难以解释的预测。

组合方法:监督和无监督学习通常是异常检测的最有效方法。假设一个无监督的模型发现它认为是欺诈的五十个用户。可以应用监督模型来提供关于这些用户为何可能是欺诈的更多细节(例如,IP地址相同,类似的时间戳等)。其他方法,如半监督,也可以提高性能。

过滤信息

用户往往被信息太多的产品所淹没。使用ML解决此问题有两种基本方法:搜索和建议。

过滤信息

搜索

搜索是指用户尝试“提取”信息的时间。有时,用户需要查找信息或对象,但不知道要查找什么或在哪里找到它们。一个简单的搜索算法可以使用文本匹配和最近查看的项目来查找对象,但ML可以做更多。ML模型可以以基于规则的搜索不能的方式考虑搜索结果中的数百或数千个功能。

例子

搜索是Dropbox体验的核心。当用户在其组织的Dropbox中搜索“机器学习”时,将返回一组文档然后进行排名。得到的排名基于查询文本以上(“机器学习”); 它还使用相关性分数。该分数考虑了搜索者,他们与之交互的人以及他们最近打开的文件(新鲜度)。可以使用易于访问的数据(如过去的用户搜索和点击结果)来训练这样的模型。

随着对大规模计算的访问的增加,图像,视频和音频搜索变得可能。即使没有Facebook或YouTube视频的手动标签,ML模型也可以提取音频并使用图像识别来索引视频以进行搜索。同样,Squarespace使用可视化搜索来帮助其用户查找具有类似主页图像的网站。

推荐系统

如果搜索是“拉动”,则建议是“推动”。与搜索一样,推荐ML模型可帮助用户导航信息过载,但建议通过向用户推送个性化信息来实现。推荐ML的最常见应用是社交媒体新闻源和亚马逊的“购买此商品的客户也购买。”但是,其他产品也开始向用户推送个性化推荐。

例子

当用户打开Instagram,Reddit或LinkedIn时,ML模型会自动提供个性化和无意识的体验,其中充满了感兴趣的人或主题的更新。即使广告可以嵌入和个性化,也可以成为推荐体验的一部分。

打开Nordstroms购物应用程序,您将看到的第一件事是“为您准备的产品”。它使用ML帮助客户根据之前的购物历史发现他们可能喜欢的销售和新产品。Nordstroms还可以帮助您找到之前没有查看或购买的产品,但是您购买的其他产品也是如此。许多零售商现在利用ML在他们的在线展示中获得推荐。

审核内容

越来越多的公司依赖其产品中的用户生成内容,并审核内容变得越来越重要。需要审核照片,文本,音频,视频甚至直播流等内容,以遵守每个平台设置的规则。公司不可能让人类主持人对其所有内容强制执行这些规则。

审核内容

例子

YouTube 每分钟上传500小时的视频,这需要超过100,000名审稿人每周工作40小时。相反,YouTube等企业依靠用户和ML标记内容供主持人审核。在这个用例中,ML应该反映人类审稿人会做什么,因为数据都是人类标记的,而成功度量标准正在通过人工审核。这种对人类判断的依赖使得对ML的调节内容继续成为一个需要解决的根本挑战性问题。

另一方面,Reddit在其平台上的调节很少。它优化了语音自由,因此该平台主要是调节非法内容。另一方面,像LinkedIn这样的专业网络认为任何不适当的内容都是一个巨大的问题。像LinkedIn这样的平台可以调整内容,ML模型可以调整平台的清洁度,而不会让团队或个人感到不安。

自动执行重复性任务

我们看到许多ML应用程序的最后一个问题是自动执行重复性任务。这些任务包括预测销售线索的质量,输入和分类收据数据,或发送营销电子邮件。这个区域通常是在ML开始的好地方,因为标记数据很丰富,并且有直接的时间节省。

例子

提交费用报告的收据是一项非常重复的任务,通过光学字符识别和ML进行自动化。ML模型拍摄收据图像并自动填写用户费用报告中的字段。旧的手动报告提供了培训此模型所需的信息,使数据易于访问(尽管SaaS供应商通常不得不要求访问客户数据)。

即使是电子邮件编写等复杂任务也可以部分自动化 Gmail的智能撰写使用用户输入的先前单词序列来预测句子中的下一个单词。

自动执行重复内容

该模型还使用电子邮件标题和字符串中的任何先前电子邮件作为输入。这种方法采用重复和手动的电子邮件编写部分,并使用ML自动化它们。

最后的想法

如果您遇到的问题符合这四个区域之一(或另一个未涵盖的区域),请考虑在启动机器学习项目时阅读Produce Manager to-dos

ML技术和能力总是在变化。本文中提出的问题领域并不是全面的,也不是暗示所有问题都可以或应该用ML来解决。

本文转自medium, 原文地址