不夸大、不炒作：透过机器学习实例看清AI本质

打不死的小强

7年前

本文转载自公众号新智元，原文地址

“人工智能”（AI）一词最初诞生于1955年，但是关于智能化机器的理念则要追溯到更远的时间，确切地说是古代希腊、古代中国和古代印度时期。可能这就是AI对我们的想象力的作用如此巨大的原因之一，也正因此，关于AI技术永远有这么多的热烈讨论。

但AI终究不是神话，也不是魔法，而是一种技术，和其他技术一样，也经历了数十年的研究历程，最终达到了一个新的产出水平上。计算力成本的下降和海量数据的存在，是AI技术得以发展壮大的两大原因。AI和机器学习现在已成为天文、医疗、交通、音乐等多个领域内不可多得的有用工具。

在多年的期待之后，现在AI技术终于逐步走向实用了。不过实用技术的一个特点就是，它们最终往往会消失不见。我们会忘掉那些曾经好用的技术，我们不应该让AI技术重蹈覆辙。任何技术都需要小心的审查，对于失败的风险如此之大的AI技术而言更是如此。

下面我们一起来看看AI和机器学习对当今的技术发挥着怎样的影响，因为当AI真的彻底改变了世界之后，再来了解这些影响可能就太晚了。

有一种常见的心理学现象：如果你一直重复任何一个词到了一定的次数，这个词最终会失去所有意义，化为一个徒有外壳，而无实际意义的虚词。

对于我们许多人来说，“人工智能”这个词在很久以前就已经经历了这个“无意义化”的过程。在现在的技术领域，“人工智能”几乎无处不在，从电视到牙刷，所有功能恨不得都要跟“人工智能”沾边，但这个词本身的意义却越来越模糊。

这很不应该。

虽然目前“人工智能”这个词已经毫无疑问地被滥用了，但AI技术本身比以往任何时候都要发达。它被用于医疗保健和战争、帮助人们制作音乐和书籍、可以仔细检查简历、判断个人的信誉好坏，还能够加工你手机上拍摄的照片等。简而言之，无论你喜欢与否，人工智能都会做出影响你生活的决定。

无论我们是否喜欢，人工智能都可能会做出关于我们日常生活的决定。

但这和科技公司和广告商对AI的大肆炒作和吹捧可能还差得远。以Oral-B的Genius X牙刷为例，这是今年在CES上亮相的众多设备之一，着重渲染了所谓的“AI”能力。但是，透过新闻稿中的溢美之词，其实这款牙刷也只是提供了非常简单的反馈，告诉你是否在正确的时间和地点刷牙。牙刷上的智能传感器可以检测到牙刷在口中的位置，把这东西叫做“人工智能”基本上就是胡言乱语，仅此而已。

但是当AI技术没有炒作时，往往会产生误解。新闻报道可能会夸大研究成果，随便把一个模糊的AI故事包装成“终结者”级的发现。这可能会导致人们对“AI究竟是什么”这个问题产生困惑。

对于非专家的普通人而言，这可能是一个棘手的话题，人们经常错误地将目前的人工智能与他们最熟悉的“人工智能”混为一谈：后者多半表现为比人类聪明的多的、有意识的计算机。专家将这个特定的人工智能形式称为“通用人工智能”，如果我们确实创造出了类似的东西，那么将来可能还有很长的路要走。而在此之前，夸大AI系统的智能水平或能力对任何人都没有好处。

莫让AI空壳化，搞清“什么是AI”很重要

那么，究竟什么是AI？（上图由上至下，顺时针方向依次为：电影Metropolis的模型，Oral-B的AI牙刷，自动送货机器人。）

其实，讨论“机器学习”要比讨论AI更合适。机器学习是AI的子领域，包含了几乎所有对世界影响最大的方法（包括“深度学习”）。这个词没有“AI”的神秘感，但它更有助于解释技术的作用。

机器学习的运作方式是什么？在过去的几年里，我看到过几十种解释，发现最有用的区别就在于“机器学习”这个词本身：机器学习就是让计算机能够自己学习。但这又引出了一个更大的问题。

我们先看一个问题。假设你要构建一个可以识别猫的程序。你可以尝试用老方法通过编程制定一些明确的规则，比如“猫有尖尖的耳朵”和“猫是毛茸茸的”等。但是如果对程序展示一只老虎的照片时，程序会作何反应呢？要通过编程制定全部所需规则将是耗时费力的任务，而且在此过程中必定涉及到各种困难的概念的定义，比如对“尖尖”和“毛茸茸”的定义。

所以更好的办法是让机器自学。因此，可以为机器提供大量的猫的照片，系统会以自己特有的方式查看这些图片。起初几乎是随机连接不同的点，但随着实验的反复进行，系统会不断学习更新版本。最终可以比较准确地判断哪些照片上是猫，哪些不是猫。

AI系统容易“自学成才”，也容易“偷工减料”

到目前为止，我们说的还是可以预测的东西。实际上，你以前可能看过这样的解释，但重要的不是这种解释本身，而是它所暗示的含义。让决策系统采用这样的学习模式会有什么副作用？

这种方法的优点是很明显的：永远不需要实际编程。当然，需要做很多修补工作，改进系统处理数据的方式，并提出了更明智的方法来提取信息，但你并没有告诉系统要寻找什么。也就是说系统可能会发现人类可能会错过或从未想到的新模式。而且因为所有的程序需求的都是数据，也就是1和0，所以可以利用这一系统来训练完成多种任务，因为现代世界中到处都充斥着大量的数据。手中有了“机器学习”这把锤子，在数字世界中有的是钉子可钉。

不过，也要看到这种方式的缺点。如果你没有明确地教过计算机，你怎么知道它是如何做出决定的？机器学习系统无法解释自己的想法，这意味着你的算法可能因错误的原因而表现出良好的性能。同样，计算机系统可能会产生一种存在偏见的世界观，或者可能只擅长完成与之前获得的数据类似的一小部分相关任务。

机器学习系统也不具备人类所期望的常识。你可以建立世界上性能最好的猫咪识别程序，但它永远不会告诉你，猫咪不应该开摩托车，或者猫咪的常用昵称是“Tiddles”，而不是“Megalorth the Ondying”。

教计算机自己学习是一条明智的捷径。不过像所有快捷方式一样，它涉及到偷工减料。 AI系统中存在智能，但它不是有机智能，不会遵循人类的规则。比如可能会提出这样的问题：一本书有多聪明？在一口煎锅中编入了哪些专业知识？

AI的未来：实现“润物细无声”的技术变革

那么我们现在处于人工智能的哪个阶段？经过新闻炒作的无数个“下一个重大突破”洗礼之后，一些专家认为我们已经达到了一个稳定的状态。但这并不是AI技术进步的障碍。在AI研究方面，我们现有的知识中还有广阔的探索空间，而在产品方面，我们还只发现了算法的冰山一角。

风投策略分析师本尼迪克特·埃文斯将机器学习比作关系型数据库，后者是一种企业软件，曾在上世纪90年代创造了大量财富，并彻底改变了整个行业，但是当你读到“关系型数据库”这个词时，可能并不会引起特别的注意。我们现在正处于人工智能正常快速发展的阶段。 “最终，几乎所有事情都会涉及到（机器学习）的某个领域，没有人会对此大惊小怪。”埃文斯说。

他说的很对，但我们目前还没有达到这个阶段。

无论是在现在还是将来，人工智能和机器学习仍然会是新的、往往无法解释的新领域，还存在诸多未经研究的新问题。未来，会有更多更丰富的AI技术会推动生活中方方面面的变革。总有一天，你会发现AI的应用已经如此普遍，甚至根本都不会引起你的注意。