我在12家机器学习初创公司工作中学到了什么

打不死的小强

6年前

我曾与12家创业公司合作。他们涵盖了从金融科技和医疗保健到教育技术和生物技术的各个垂直领域，从种子期到收购后不等。我的职责也各不相同，从杂乱无章的第一员工到数据科学主管和战略顾问。在所有这些中，我都致力于有趣的机器学习和数据科学问题。所有人都试图制造出优质的产品。许多人都成功了。

这是我学到的。

这是关于构建产品，而不是关于AI

作为一名持卡数学家，我最初受到机器学习科学以及提出创新的新算法和方法的挑战的最大动力。

但是我很快意识到，即使是最精确的机器学习模型也无法独自创造价值。机器学习和AI的价值在于根据其提供的产品来衡量。弄清楚如何有效地做到这一点，是构建ML驱动产品的真正目的。

如果目标是制造产品，那么机器学习和AI就是达到目的的手段。重要的是他们如何很好地解决您的产品问题，而不是您使用的是哪种方法。在大多数情况下，快速而肮脏的解决方案会让您步入正轨。当简单的回归就可以了时，不要训练深度神经网络。

当您专注于问题时，有时您可能会发现机器学习不是解决问题的正确工具。事实证明，许多问题主要与过程有关。即使在这种情况下，数据科学家自然也会倾向于采用严格的，数据驱动的方法，因此它们可以贡献很多价值。但这并不能使使用AI修复不良流程成为一个好主意。修复该过程。

机器学习的真正价值很少来自采用现有产品并将其与机器学习模型的预测相结合。当然，这将增加一些增量值。但是在功能强大的AI产品中，机器学习不仅仅是一个附加组件。它是价值创造的引擎，产品的构建考虑了引擎：产品和数据必须协同运行。

如果做得好，这将导致一个强大的良性循环，我称之为“ 产品/数据拟合 ”：产品有效地实现了数据的潜在价值，同时继续生成必要的数据以进一步改善产品。

尤其是，AI不能仅仅停留在数据科学和工程团队中。从产品到执行人员，组织的其他部门都需要参与对话，以加快价值创造过程。这需要大量的教育和投入，甚至超出工程师通常习惯于从构建软件（甚至在初创公司）中所不具备的能力。

机器学习和AI需要大量数据，更重要的是，高质量数据。如果要从头开始构建产品，请考虑从第一天开始收集数据。如果要在现有产品中引入AI技术，则在进入AI部分之前，准备在数据工程和重新架构上投入大量资金。

这并不意味着您必须在实现任何价值之前先完成所有工作。更好的数据运营意味着更好的分析，这对于任何组织学习和改进都是至关重要的。利用这些胜利来展示价值并产生组织认同。而且，当您的分析工作如虎添翼时，您就可以开始考虑真正的机器学习了。

打造出色的产品需要出色的产品经理和高管的支持。尽管许多人被AI和深度学习的力量所吸引，但很少有非技术人员真正了解这些技术。对机器学习和AI的有效讨论需要对统计数据有充分的了解，从而造成沟通鸿沟，这常常导致不切实际的期望。

一个关键要素是保持有关业务指标及其如何转化为建模指标的持续对话。这给产品经理带来了很多责任，但数据科学家也要承担同样的责任，他们必须发展领域专业知识并深刻理解业务考虑因素才能真正发挥作用。

正如我上面提到的，快速而肮脏的方法将使您受益匪浅。部分原因是因为今天的快速和肮脏是昨天的缓慢和精确。诸如word2vec之类的工具已变得几乎像回归一样易于使用，并且不断推出功能强大的新工具。对于任何数据科学家来说，对各种构建模块及其之间的粘合的深刻理解都是至关重要的。

开源工具爆炸式增长的结果是，在大多数情况下，开发专有的ML平台不是一个好主意。当然，您应该拥有专有的算法，这些算法采用众所周知的构建基块，并使它们适应您的问题和您的领域。但是，将深度学习研究留给Google的人们-专注于业务问题，还记得吗？

早期产品开发中最重要的活动是获得市场反馈。但是机器学习需要大量数据，并且需要很长时间才能获取。这带来了一个问题：您如何在没有大量数据的情况下获得有关数据产品的市场洞察力？

最好的解决方案通常是简单地向用户显示数据。人类一次只能处理少量数据，因此如果您没有太多数据也没关系。您的用户如何处理您显示给他们的数据？他们在哪里掩饰，他们想在哪里深入挖掘？公开以前无法访问的信息可能会非常有用，并且可以为您提供有关数据潜在业务价值的强大指导。

信任是大多数技术成功的主要因素。最终，每一项技术都为人类所使用，必须得到人类的信任。在机器学习应用程序的背景下，其中一些人可能会担心他们的工作被自动化。其他人则依靠您的技术提供的信息来做出重要的决定。

诸如此类的AI产品（例如通过尝试为人类做出决策而不是赋予人类决策能力）会加剧这些担忧，这将导致信任度快速下降。

信任容易丢失而难以恢复。打造人们信任的产品。

本文转自towardsdatascience，原文地址