我的业务要不要用人工智能？引入AI前你需要评估的（二）

这是一个系列文章，从各个角度来评估一个问题：“我的业务要不要用 AI ？能不能用 AI？”
本期评估角度——数据。

系列文章列表：

我的业务要不要用人工智能？引入AI前你需要评估的（一）

我的业务要不要用人工智能？引入AI前你需要评估的（二）

我的业务要不要用人工智能？引入AI前你需要评估的（三）

我的业务要不要用人工智能？引入AI前你需要评估的（四）

底层逻辑：数据驱动

基于规则的旧时代

在人工智能普及之前，大家用的产品都是「基于规则」的。

我们通过总结规则，然后让计算机自动的执行这些规则，我们日常工作和生活中很多问题都是基于规则来处理的，比如：

Excel 中的各种公式的规则就是：将选中的区域进行计算
邮件的规则就是：将内容发给收件人
公众号的规则就是：将关注的公众号内容推送给你

基于规则的好处就是：所以人都能知道在什么情况下得到什么结果，一切都是可以预判的。

但是基于规则的方法也有很大的弊端：很多问题，很难（甚至无法）总结出有效的规则。

基于数据的 AI 时代

人工智能发展到现在（2019年），最核心的底层逻辑是：「基于数据」。

规则能很好解决的问题当然是用规则来解决，因为他的成本低，可解释性强。但是很多问题没有有效个规则，这个时候人工智能的价值就凸显了。

「基于数据」的方法简单说就是：从海量数据中找规律，这些规律是很抽象的，并不能总结成具象的规则。比如：

给机器看海量的猫和狗的照片，它就具备了「区分猫和狗」的能力
给机器海量的中英文对照文章，它就具备了「中英文翻译」的能力
给机器海量的文章，它甚至可以具备「写文章」的能力

基于数据的好处是：只要有足够多的优质数据，那么机器就能学会某些技能，数据越多，能力越强。

但是基于数据的方法也有明显的弊端：机器只能告诉你「是什么」，但是无法告诉你「为什么」。

扩展阅读：

《「2019更新」什么是人工智能？（AI的本质+发展史+局限性）》

《自然语言处理为什么从规则转到统计的方法？》

《人工智能》有详细介绍这段历史

想要用 AI，需要知道数据金字塔

上文已经说明了「基于数据」的逻辑，那么支撑这个逻辑的就是「数据」。

没有数据，就无从基于数据。所以想要用人工智能，需要考虑业务场景的数据3要素：

数据可获取
数据全面
数据多

他们3个类似金字塔的结构，先有「数据可获取」再谈「数据全面」，有了「数据全面」再谈「数据多」。

数据可获取

想要解决问题，就需要具备「跟这个问题相关的数据」。比如上面提到的例子：

给机器看海量的猫和狗的照片，它就具备了「区分猫和狗」的能力。

这里需要的数据不光是照片本身，还需要将照片里的猫和狗标注出来，如下图：

所以，你要考虑的问题是：

我遇到的问题有哪些影响因素？
这些影响因素是数字化的吗？如果不是，能否数字化？
这些数据是否可以获取？成本高吗？值得吗？

数据全面

假如我们只能看到 10% 的照片，现在让你区分照片中是猫还是狗，这会非常难。如下图：

当我们能看到照片的 50% 时，还能猜一下。

当我们可以看到100%的照片时，就信心十足了。

人是如此，机器也是如此，你都不让我看全，我怎么分析啊！

所以，当我们想要利用人工智能技术来解决实际问题时，你需要仔细分析这个问题：

到底有哪些影响因素？是否有对应的数据？
有数据的因素是否足够全面？
关键因素的数据有遗漏吗？

数据多

还是区分猫和狗的例子。猫大概有40多个品种，狗大概有接近200个品种。并且照片可以从不同的角度，不同的背景，不同的光线下拍摄，会产生无数种组合。

想要有效的区分猫和狗，需要大量的不同的照片才行。kaggle（很权威的 AI 竞赛网站）上有很多区分猫和狗的训练数据，大部分都是上万的量级（1w+的猫和1w+的狗）。

到底多少算够用呢？

区分猫和狗这种非常简单的任务都需要上万的数据，对于更复杂的任务，就需要上百万甚至上亿的数据。具体要多少跟你要解决的问题复杂度，模型选择，预期结果都有关系。

不过有一条原则是不会变：数据越多，效果越好！

案例分析

假如你是游戏公司的老板，想利用人工智能技术提升游戏的收入，从数据角度评估一下是否可行？

电商平台通过推荐算法可以让购物者花更多钱，那么在游戏里结合推荐算法，理论上也可以让玩家花更多的钱。

推荐算法的本质是：挖掘用户需求，将匹配需求的商品推荐给用户。

应用到游戏里则是：挖掘用户的需求和他的消费能力，将匹配需求的道具，以合适的价格推荐给用户。

第一步：数据是否可获取？

游戏算是数字化程度很高的领域了，但即便如此，还是有部分因素并没有数据化。比如：

一些游戏玩家都会在微信群里聊天和互动，这部分数据游戏是没有的
老婆发现老公在游戏里泡妞，被迫卸载了游戏。这种游戏外发生的事情有时候也会影响到游戏内。
玩家的心理活动也是没有数据的（这次活动打折好厉害，但是我要忍住！不然又要吃一星期泡面了~）

够不够用呢？下一步全面性的时候再分析。

「数据可获取」看似是一个很白痴的问题，但是很多行业的数字化程度非常低，这个问题对于他们来说并不简单。

第二步：数据全面性是否够用？

想要判断玩家的需求和消费能力，大致有下面一些影响因素：

用户属性
1. 玩家属性（年龄、性别、地理位置…）
2. 角色属性（等级、装备情况、剩余钻石数量…）
行为数据
1. 游戏行为（买过什么东西、参与过什么玩法、打过什么副本…）
2. 消费行为（活动页面停留时长、买过什么东西、花过多少钱…）
3. 玩家互动（跟谁组过队、跟谁打过架、跟谁参加过活动…）
4. 聊天数据（跟谁、说过什么话、游戏内+游戏外）
5. 心理活动（想要什么、喜欢什么、觉得多收钱值…）
商品属性
1. 商品价格
2. 商品作用
3. 商品特点
4. 购买条件

还是参考电商的经验，亚马逊、阿里巴巴都已经验证过：

在缺失「聊天数据」「心理活动数据」「电商平台外数据」的情况下，依然能有效的挖掘出用户需求，刺激消费。

而游戏不但有推荐的权利，还有定价权，可以通过降价进一步的刺激消费。所以全面性角度是 OK 的。

PS：所以在全面性的评估上，不需要理论上 100% 全面，而是达到可用的程度即可，这个事前只能找案例参考。

第三步：数据够不够多？

推荐系统是一种特殊性的情况，他对数据量的要求很有弹性，在数据量少的事情有很多手段来解决冷启动的问题。随着数据量的增多，算法的作用逐步加大。

一个新用户下载了淘宝，依然不妨碍推荐，只不过用的越多推荐的越靠谱一些而已。

PS：在评估数据是否足够时，尽量找经验丰富的技术咨询一下。

所以，经过3个数据角度的评估，「通过推荐算法提升游戏收入」的设想应该是可行的。

总结

评估能不能用人工智能技术时，「数据」可以说是最重要的一个维度。

具体评估时，想清楚下面3个问题：

数据可获取吗？
数据全面吗？
数据多吗？

3个问题需要同时满足，才算是「貌似可行」。

在评估「要不要用」和「能不能用」人工智能时，需要考虑很多问题。这个系列还会持续更新，关注我的公众号查看所有内容：

公众号：打不死的小强（xiaoqiang-me）

扩展阅读：

《机器学习实操的7个步骤》

《数据收集六步曲，打好机器学习模型基础》

《AI 数据集最常见的6大问题（附解决方案）》

我的业务要不要用人工智能？引入AI前你需要评估的（二）

底层逻辑：数据驱动

基于规则的旧时代

基于数据的 AI 时代

想要用 AI，需要知道数据金字塔

数据可获取

数据全面

数据多

案例分析

总结

打不死的小强 Author

Previous

Next

Comments

Leave a comment 取消回复

关于 easyAI

关注我们的公众号：easyai-tech

底层逻辑：数据驱动

基于规则的旧时代

基于数据的 AI 时代

想要用 AI，需要知道数据金字塔

数据可获取

数据全面

数据多

案例分析

总结

打不死的小强 Author

Previous

Next

Comments

Leave a comment 取消回复

关于 easyAI

热门标签

关注我们的公众号：easyai-tech