“如果一个典型的人可以用不到一秒钟的时间做一个心理任务,我们现在或者在不久的将来可能会使用AI自动化它。”

– Andrew Ng

阅读本文的大多数人可能熟悉机器学习以及用于根据数据对结果进行分类或预测的相关算法。但是,重要的是要了解机器学习不是所有问题的答案。鉴于机器学习的有用性,很难接受有时它不是问题的最佳解决方案。

在本文中,我的目的是让读者相信,有时机器学习是正确的解决方案,有时候它是错误的解决方案。


机器学习是人工智能的一个子集,它在过去十年中已经彻底改变了我们所知道的世界。信息爆炸导致收集大量数据,特别是Facebook和谷歌等大公司。这一数据量加上处理器功率和计算机并行化的快速发展,现在可以相对容易地获取和研究大量数据。

如今,关于机器学习和人工智能的夸张无处不在。这可能是正确的,因为这个领域的潜力巨大。人工智能咨询机构的数量在过去几年中飙升,根据Indeed的一份报告,2015年至2018年期间与人工智能相关的工作岗位数量激增了100%。

截至2018年12月,福布斯发现47%的企业在其业务流程中至少拥有一项人工智能,德勤的一份报告预测,内置AI的企业软件的渗透率和基于云的AI开发服务,预计将分别达到87%和83%。这些数字令人印象深刻 – 如果你计划很快改变职业,人工智能似乎是一个不错的选择。

这一切看起来都很棒吗?公司很高兴,并且可能消费者也很高兴 – 否则,公司就不会使用人工智能。

这很棒,我是机器学习和人工智能的忠实粉丝。但是,有时候使用机器学习是不必要的,没有意义,有时候它的实现会让你陷入困境。


限制1 – 道德规范

机器学习是人工智能的一个子集,它在过去十年中已经彻底改变了我们所知道的世界。信息爆炸导致收集大量数据,特别是Facebook和谷歌等大公司。这一数据量加上处理器功率和计算机并行化的快速发展,现在可以相对容易地获取和研究大量数据。

很容易理解为什么机器学习对世界产生了如此深远的影响,不太清楚的是它的能力究竟是什么,也许更重要的是它的局限性。Yuval Noah Harari着名地创造了“数据主义”这个术语,它指的是我们正在进入的一个假定的文明新阶段,我们相信算法和数据比我们自己的判断和逻辑更多。

虽然你可能觉得这个想法很可笑,但请记住你最后一次去度假并按照GPS的指示而不是你自己在地图上的判断 – 你是否质疑GPS的判断?由于他们盲目地按照GPS的指示,人们已经开始进入湖泊。

信任数据和算法的想法超出了我们自己的判断,这有其优点和缺点。显然,我们从这些算法中受益,否则,我们首先不会使用它们。这些算法允许我们通过使用可用数据做出明智的判断来自动化流程。然而,有时候,这意味着用一种算法取代某人的工作,这种算法伴随着道德的后果。另外,如果出现问题我们会责怪谁?

目前最常讨论的案例是自动驾驶汽车 – 我们如何选择车辆在发生致命碰撞时应如何反应?在未来,我们必须选择在购买车辆时我们希望自动驾驶汽车遵循哪种道德框架?

如果我的自动驾驶汽车在路上杀死了某人,那是谁的错?

虽然这些都是引人入胜的问题,但它们并不是本文的主要目的。然而,显而易见,机器学习无法告诉我们什么是我们应该接受的规范性价值观,即我们应该如何在特定情况下在世界上采取行动。正如大卫·休姆(David Hume)所说的那样,人们不能“从一个人那里得到一个”。


限制2 – 确定性问题

这是我个人不得不处理的限制。我的专业领域是环境科学,它在很大程度上依赖于计算建模和使用传感器/物联网设备。

机器学习对于传感器来说非常强大,当连接到测量环境变量(如温度,压力和湿度)的其他传感器时,可用于帮助校准和校正传感器。来自这些传感器的信号之间的相关性可用于开发自校准程序,这是我的大气化学研究领域的热门研究课题。

然而,在计算建模方面,事情变得更有趣。

运行模拟全球天气,地球排放以及这些排放物运输的计算机模型计算成本非常高。实际上,它的计算成本非常昂贵,即使在超级计算机上运行,​​研究级仿真也可能需要数周时间。

MM5和WRF就是很好的例子,它们是数值天气预报模型,用于气候研究,并为您提供早间新闻的天气预报。想知道天气预报员整天都在做什么?运行并研究这些模型。

运行天气模型很好,但现在我们有机器学习,我们可以用这个来获取我们的天气预报吗?我们能否利用来自卫星,气象站的数据,并使用基本预测算法来辨别明天是否会下雨?

答案是,令人惊讶的是,是的。如果我们知道某个区域周围的空气压力,空气中的水分含量,风速以及相邻点的信息及其自身变量,就可以训练,例如,神经网络。但是以什么代价?

使用具有一千个输入的神经网络来确定明天是否会在波士顿下雨。然而,利用神经网络错过了天气系统的整个物理特性。

机器学习是随机的,而不是确定性的。

神经网络不了解牛顿第二定律,或密度不能为负 – 没有物理约束。

但是,这可能不是长期的限制。有许多研究人员正在考虑为神经网络和其他算法添加物理约束,以便将它们用于此类目的。


限制3 – 数据

这是最明显的限制。如果你喂的模型很差,那么它只能给你不好的结果。这可以通过两种方式表现出来:缺乏数据和缺乏良好的数据。

缺少数据

许多机器学习算法在开始提供有用结果之前需要大量数据。一个很好的例子是神经网络。神经网络是需要大量训练数据的数据吞噬机器。架构越大,产生可行结果所需的数据就越多。重用数据是一个坏主意,数据增加在某种程度上是有用的,但拥有更多数据始终是首选解决方案。

如果您可以获取数据,那么使用它。

缺乏好的数据

尽管外表,但这与上述评论不同。让我们想象一下,你认为你可以通过生成一万个假数据点来欺骗你的神经网络。你把它放进去会发生什么?

它将训练自己,然后当你在一个看不见的数据集上进行测试时,它将无法正常运行。你有数据,但数据的质量没有达到标准。

同样,缺乏良好功能会导致算法性能不佳,缺乏良好的基础事实数据也会限制模型的功能。没有公司会实施比人类级错误更糟糕的机器学习模型。

类似地,在一种情况下应用在一组数据上训练的模型可能不一定适用于第二种情况。到目前为止,我发现的最好的例子是乳腺癌预测。

乳房X光摄影数据库中有很多图像,但是它们遭受了近年来引起严重问题的一个问题 – 几乎所有的X射线都来自白人女性。这可能听起来不是什么大问题,但实际上,由于各种因素可能包括检测和获得医疗保健的差异,黑人女性死于乳腺癌的可能性增加42%。因此,在这种情况下,主要针对白人女性的算法训练会对黑人女性产生不利影响。

在这个特定情况下需要的是训练数据库中黑人患者的X射线数量越多,与这种可能性增加42%相关的更多特征,以及通过对数据集进行分层来使算法更加公平。相关轴。

如果您对此持怀疑态度或想了解更多信息,我建议您查看本文


限制4 – 误用

与前面讨论的第二个限制相关,据称是“ 学术研究中的机器学习危机 ”,人们盲目地使用机器学习来尝试和分析本质上具有确定性或随机性的系统。

由于在限制二中讨论的原因,在确定性系统上应用机器学习将成功,但算法不能学习两个变量之间的关系,并且不知道它何时违反物理定律。我们只是向系统提供了一些输入和输出,并告诉它要学习这种关系 – 就像有人从字典中逐字逐句翻译一样,算法似乎只能轻易掌握基础物理。

对于随机(随机)系统,事情有点不太明显。随机系统的机器学习危机以两种方式表现出来:

  • P-黑客
  • 分析范围

P-黑客

当一个人可以访问可能有数百,数千甚至数百万个变量的大数据时,找到统计上显着的结果并不太困难(假设大多数科学研究所需的统计学意义水平为p <0.05) 。这通常会导致发现虚假的相关性,这些相关性通常通过p-hacking获得(查看大量数据,直到找到显示统计上显着结果的相关性)。这些不是真正的相关性,只是对测量中的噪声做出响应。

这导致个体“钓鱼”通过大型数据集进行统计上显着的相关性,并伪装成真正的相关性。有时,这是一个无辜的错误(在这种情况下,科学家应该受到更好的培训),但有时候,这样做是为了增加研究人员发表的论文数量 – 即使在学术界,竞争也很激烈,人们会做任何事情来改善他们的指标。

分析范围

与统计建模相比,机器学习分析的范围存在固有差异 – 统计建模本质上是确认性的,机器学习本质上是探索性的。

我们可以将验证性分析和模型视为某人在博士学位中所做的事情。计划或研究领域。想象一下,您正在与顾问合作并尝试开发一个理论框架来研究一些现实世界的系统。该系统具有一组受其影响的预定义特征,并且在仔细设计实验和开发假设之后,您可以运行测试以确定假设的有效性。

另一方面,探索性缺乏与验证性分析相关的许多品质。实际上,在真正大量数据和信息的情况下,由于数据量庞大,确认方法完全崩溃。换句话说,在存在数百个,数千个,数百万个特征的情况下,根本不可能仔细地布置一组有限的可测试假设。

因此,从广义上讲,机器学习算法和方法最适合于利用大量数据和计算复杂特征进行探索性预测建模和分类。有人会认为它们可以用于“小”数据,但是为什么当经典的多变量统计方法提供更多信息时会这样做呢?

ML是一个在很大程度上解决来自信息技术,计算机科学等问题的领域,这些领域既可以是理论问题,也可以是应用问题。因此,它与物理学,数学,概率和统计学等领域有关,但ML本身就是一个领域,这个领域不受其他学科提出的问题的影响。ML专家和从业者提出的许多解决方案都是错误的……但是他们完成了工作。


限制5 – 可解释性

可解释性是机器学习的主要问题之一。一家人工智能咨询公司试图向一家只使用传统统计方法的公司投资,如果他们认为该模型不可解释,就可以停止。如果您无法说服您的客户了解算法是如何做出决定的,那么他们有多大可能信任您和您的专业知识?

正如“ 商业数据挖掘 – 机器学习视角 ”中直言不讳的那样:

“如果以业务术语解释结果,业务经理更有可能接受[机器学习方法]建议”

除非可以解释这些模型,否则这些模型可以变得无能为力,并且人类解释的过程遵循远远超出技术实力的规则。因此,可解释性是机器学习方法如果要在实践中应用的目标应达到的最高质量。

特别是开花的 – 组学,基因组学,蛋白质组学,代谢组学等,已经成为机器学习研究者的主要目标,因为它们依赖于大型和非平凡的数据库。然而,尽管取得了明显的成功,但他们的方法缺乏可解释性。


总结和彼得沃斯的名单

虽然不可否认的是,人工智能已经开辟了大量有前途的机会,但它也导致了一种心态的出现,这种心态最好被描述为“ 人工智能解决方案 ”。这是一种哲学,如果有足够的数据,机器学习算法可以解决所有人类的问题

正如我希望我在本文中明确指出的那样,至少在目前情况下,存在一些限制,以防止出现这种情况。神经网络永远无法告诉我们如何成为一个好人,至少就目前而言,不了解牛顿的运动定律或爱因斯坦的相对论。基于机器学习的基础理论也存在基本限制,称为计算学习理论,主要是统计限制。我们还讨论了与分析范围和p-hacking的危险相关的问题,这可能导致虚假的结论。结果的可解释性也存在问题,这可能会对那些无法使客户和投资者确信其方法准确可靠的企业产生负面影响。

虽然在本文中我已经非常广泛地介绍了人工智能的一些最重要的局限性,但我将在2016年10月的Peter Voss 的一篇文章中列出一个列表,其中列出了关于人工智能局限性的更全面的列表。虽然目前的主流技术在狭窄的领域可能非常强大,但他们通常会列出一些或所有的约束列表,我将在此完整引用:

  • 每个狭窄的应用程序都需要经过专门培训
  • 需要大量手工制作的结构化培训数据
  • 通常必须监督学习:必须标记训练数据
  • 需要冗长的离线/批量培训
  • 不要实时地以增量或交互方式学习
  • 转移学习能力差,模块可重用性和集成
  • 系统是不透明的,使得它们很难调试
  • “长尾”无法审核或保证表现
  • 它们编码相关性,而不是因果关系或本体论关系
  • 不要对实体之间的实体或空间关系进行编码
  • 只处理自然语言的非常狭隘的方面
  • 不适合高级,象征性的推理或计划

话虽如此,机器学习和人工智能将继续为工业带来革命,并且只会在未来几年变得更加普遍。虽然我建议你最大限度地利用机器学习和人工智能,但我也建议你记住你使用的工具的局限性 – 毕竟,没有什么是完美的。

本文转自towardsdatascience,原文地址