这是一个系列文章,从各个角度来评估一个问题:“我的业务要不要用 AI ?能不能用 AI?”

本期评估角度——数据。

系列文章列表:

我的业务要不要用人工智能?引入AI前你需要评估的(一)

我的业务要不要用人工智能?引入AI前你需要评估的(二)

我的业务要不要用人工智能?引入AI前你需要评估的(三)

我的业务要不要用人工智能?引入AI前你需要评估的(四)

底层逻辑:数据驱动

基于规则的旧时代

在人工智能普及之前,大家用的产品都是“基于规则”的。

人工智能之前都是基于规则

我们通过总结规则,然后让计算机自动的执行这些规则,我们日常工作和生活中很多问题都是基于规则来处理的,比如:

  • Excel 中的各种公式的规则就是:将选中的区域进行计算
  • 邮件的规则就是:将内容发给收件人
  • 公众号的规则就是:将关注的公众号内容推送给你

基于规则的好处就是:所以人都能知道在什么情况下得到什么结果,一切都是可以预判的。

但是基于规则的方法也有很大的弊端:很多问题,很难(甚至无法)总结出有效的规则。

基于规则的优缺点

基于数据的 AI 时代

人工智能发展到现在(2019年),最核心的底层逻辑是:“基于数据”。

基于数据的AI时代

规则能很好解决的问题当然是用规则来解决,因为他的成本低,可解释性强。但是很多问题没有有效个规则,这个时候人工智能的价值就凸显了。

“基于数据”的方法简单说就是:从海量数据中找规律,这些规律是很抽象的,并不能总结成具象的规则。比如:

  • 给机器看海量的猫和狗的照片,它就具备了“区分猫和狗”的能力
  • 给机器海量的中英文对照文章,它就具备了“中英文翻译”的能力
  • 给机器海量的文章,它甚至可以具备“写文章”的能力

基于数据的好处是:只要有足够多的优质数据,那么机器就能学会某些技能,数据越多,能力越强。

但是基于数据的方法也有明显的弊端:机器只能告诉你“是什么”,但是无法告诉你“为什么”

基于数据的优缺点

扩展阅读:

“2019更新”什么是人工智能?(AI的本质+发展史+局限性)

自然语言处理为什么从规则转到统计的方法?

人工智能》有详细介绍这段历史

想要用 AI,需要知道数据金字塔

上文已经说明了“基于数据”的逻辑,那么支撑这个逻辑的就是“数据”。

没有数据,就无从基于数据。所以想要用人工智能,需要考虑业务场景的数据3要素:

  1. 数据可获取
  2. 数据全面
  3. 数据多

他们3个类似金字塔的结构,先有“数据可获取”再谈“数据全面”,有了“数据全面”再谈“数据多”。

数据评估的3个要素

数据可获取

想要解决问题,就需要具备“跟这个问题相关的数据”。比如上面提到的例子:

给机器看海量的猫和狗的照片,它就具备了“区分猫和狗”的能力。

这里需要的数据不光是照片本身,还需要将照片里的猫和狗标注出来,如下图:

有时候需要对数据进行标注

所以,你要考虑的问题是:

  1. 我遇到的问题有哪些影响因素?
  2. 这些影响因素是数字化的吗?如果不是,能否数字化?
  3. 这些数据是否可以获取?成本高吗?值得吗?

数据全面

假如我们只能看到 10% 的照片,现在让你区分照片中是猫还是狗,这会非常难。如下图:

看照片10%很难判断猫还是狗

当我们能看到照片的 50% 时,还能猜一下。

看到照片的 50% 时,还能猜一下

当我们可以看到100%的照片时,就信心十足了。

看到100%的照片时,就信心十足了

人是如此,机器也是如此,你都不让我看全,我怎么分析啊!

所以,当我们想要利用人工智能技术来解决实际问题时,你需要仔细分析这个问题:

  1. 到底有哪些影响因素?是否有对应的数据?
  2. 有数据的因素是否足够全面?
  3. 关键因素的数据有遗漏吗?

数据多

还是区分猫和狗的例子。猫大概有40多个品种,狗大概有接近200个品种。并且照片可以从不同的角度,不同的背景,不同的光线下拍摄,会产生无数种组合。

想要有效的区分猫和狗,需要大量的不同的照片才行。kaggle(很权威的 AI 竞赛网站)上有很多区分猫和狗的训练数据,大部分都是上万的量级(1w+的猫和1w+的狗)。

到底多少算够用呢?

区分猫和狗这种非常简单的任务都需要上万的数据,对于更复杂的任务,就需要上百万甚至上亿的数据。具体要多少跟你要解决的问题复杂度,模型选择,预期结果都有关系。

不过有一条原则是不会变:数据越多,效果越好!

数据越多,效果越好

案例分析

假如你是游戏公司的老板,想利用人工智能技术提升游戏的收入,从数据角度评估一下是否可行?

电商平台通过推荐算法可以让购物者花更多钱,那么在游戏里结合推荐算法,理论上也可以让玩家花更多的钱。

推荐算法的本质是:挖掘用户需求,将匹配需求的商品推荐给用户。

应用到游戏里则是:挖掘用户的需求和他的消费能力,将匹配需求的道具,以合适的价格推荐给用户

挖掘用户的需求和他的消费能力,将匹配需求的道具,以合适的价格推荐给用户

第一步:数据是否可获取?

游戏算是数字化程度很高的领域了,但即便如此,还是有部分因素并没有数据化。比如:

  • 一些游戏玩家都会在微信群里聊天和互动,这部分数据游戏是没有的
  • 老婆发现老公在游戏里泡妞,被迫卸载了游戏。这种游戏外发生的事情有时候也会影响到游戏内。
  • 玩家的心理活动也是没有数据的(这次活动打折好厉害,但是我要忍住!不然又要吃一星期泡面了~)

够不够用呢?下一步全面性的时候再分析。

“数据可获取”看似是一个很白痴的问题,但是很多行业的数字化程度非常低,这个问题对于他们来说并不简单。

第二步:数据全面性是否够用?

想要判断玩家的需求和消费能力,大致有下面一些影响因素:

  1. 用户属性
    1. 玩家属性(年龄、性别、地理位置…)
    2. 角色属性(等级、装备情况、剩余钻石数量…)
  2. 行为数据
    1. 游戏行为(买过什么东西、参与过什么玩法、打过什么副本…)
    2. 消费行为(活动页面停留时长、买过什么东西、花过多少钱…)
    3. 玩家互动(跟谁组过队、跟谁打过架、跟谁参加过活动…)
    4. 聊天数据(跟谁、说过什么话、游戏内+游戏外)
    5. 心理活动(想要什么、喜欢什么、觉得多收钱值…)
  3. 商品属性
    1. 商品价格
    2. 商品作用
    3. 商品特点
    4. 购买条件
跟玩家消费相关的因素

还是参考电商的经验,亚马逊、阿里巴巴都已经验证过:

在缺失“聊天数据”“心理活动数据”“电商平台外数据”的情况下,依然能有效的挖掘出用户需求,刺激消费。

而游戏不但有推荐的权利,还有定价权,可以通过降价进一步的刺激消费。所以全面性角度是 OK 的。

PS:所以在全面性的评估上,不需要理论上 100% 全面,而是达到可用的程度即可,这个事前只能找案例参考。

第三步:数据够不够多?

推荐系统是一种特殊性的情况,他对数据量的要求很有弹性,在数据量少的事情有很多手段来解决冷启动的问题。随着数据量的增多,算法的作用逐步加大。

一个新用户下载了淘宝,依然不妨碍推荐,只不过用的越多推荐的越靠谱一些而已。

PS:在评估数据是否足够时,尽量找经验丰富的技术咨询一下。

所以,经过3个数据角度的评估,“通过推荐算法提升游戏收入”的设想应该是可行的。

总结

评估能不能用人工智能技术时,“数据”可以说是最重要的一个维度。

具体评估时,想清楚下面3个问题:

  1. 数据可获取吗?
  2. 数据全面吗?
  3. 数据多吗?

3个问题需要同时满足,才算是“貌似可行”。

在评估“要不要用”和“能不能用”人工智能时,需要考虑很多问题。这个系列还会持续更新,关注我的公众号查看所有内容:

公众号:打不死的小强(xiaoqiang-me)

扩展阅读:

机器学习实操的7个步骤

数据收集六步曲,打好机器学习模型基础

AI 数据集最常见的6大问题(附解决方案)