這是一個系列文章,從各個角度來評估一個問題:「我的業務要不要用 AI ?能不能用 AI?」

本期評估角度——數據。

系列文章列表:

我的業務要不要用人工智慧?引入AI前你需要評估的(一)

我的業務要不要用人工智慧?引入AI前你需要評估的(二)

我的業務要不要用人工智慧?引入AI前你需要評估的(三)

我的業務要不要用人工智慧?引入AI前你需要評估的(四)

底層邏輯:數據驅動

基於規則的舊時代

在人工智慧普及之前,大家用的產品都是「基於規則」的。

人工智慧之前都是基於規則

我們通過總結規則,然後讓計算機自動的執行這些規則,我們日常工作和生活中很多問題都是基於規則來處理的,比如:

  • Excel 中的各種公式的規則就是:將選中的區域進行計算
  • 郵件的規則就是:將內容發給收件人
  • 公眾號的規則就是:將關注的公眾號內容推送給你

基於規則的好處就是:所以人都能知道在什麼情況下得到什麼結果,一切都是可以預判的。

但是基於規則的方法也有很大的弊端:很多問題,很難(甚至無法)總結出有效的規則。

基於規則的優缺點

基於數據的 AI 時代

人工智慧發展到現在(2019年),最核心的底層邏輯是:「基於數據」。

基於數據的AI時代

規則能很好解決的問題當然是用規則來解決,因為他的成本低,可解釋性強。但是很多問題沒有有效個規則,這個時候人工智慧的價值就凸顯了。

「基於數據」的方法簡單說就是:從海量數據中找規律,這些規律是很抽象的,並不能總結成具象的規則。比如:

  • 給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力
  • 給機器海量的中英文對照文章,它就具備了「中英文翻譯」的能力
  • 給機器海量的文章,它甚至可以具備「寫文章」的能力

基於數據的好處是:只要有足夠多的優質數據,那麼機器就能學會某些技能,數據越多,能力越強。

但是基於數據的方法也有明顯的弊端:機器只能告訴你「是什麼」,但是無法告訴你「為什麼」

基於數據的優缺點

擴展閱讀:

「2019更新」什麼是人工智慧?(AI的本質+發展史+局限性)

自然語言處理為什麼從規則轉到統計的方法?

人工智慧》有詳細介紹這段歷史

想要用 AI,需要知道數據金字塔

上文已經說明了「基於數據」的邏輯,那麼支撐這個邏輯的就是「數據」。

沒有數據,就無從基於數據。所以想要用人工智慧,需要考慮業務場景的數據3要素:

  1. 數據可獲取
  2. 數據全面
  3. 數據多

他們3個類似金字塔的結構,先有「數據可獲取」再談「數據全面」,有了「數據全面」再談「數據多」。

數據評估的3個要素

數據可獲取

想要解決問題,就需要具備「跟這個問題相關的數據」。比如上面提到的例子:

給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力。

這裡需要的數據不光是照片本身,還需要將照片里的貓和狗標註出來,如下圖:

有時候需要對數據進行標註

所以,你要考慮的問題是:

  1. 我遇到的問題有哪些影響因素?
  2. 這些影響因素是數字化的嗎?如果不是,能否數字化?
  3. 這些數據是否可以獲取?成本高嗎?值得嗎?

數據全面

假如我們只能看到 10% 的照片,現在讓你區分照片中是貓還是狗,這會非常難。如下圖:

看照片10%很難判斷貓還是狗

當我們能看到照片的 50% 時,還能猜一下。

看到照片的 50% 時,還能猜一下

當我們可以看到100%的照片時,就信心十足了。

看到100%的照片時,就信心十足了

人是如此,機器也是如此,你都不讓我看全,我怎麼分析啊!

所以,當我們想要利用人工智慧技術來解決實際問題時,你需要仔細分析這個問題:

  1. 到底有哪些影響因素?是否有對應的數據?
  2. 有數據的因素是否足夠全面?
  3. 關鍵因素的數據有遺漏嗎?

數據多

還是區分貓和狗的例子。貓大概有40多個品種,狗大概有接近200個品種。並且照片可以從不同的角度,不同的背景,不同的光線下拍攝,會產生無數種組合。

想要有效的區分貓和狗,需要大量的不同的照片才行。kaggle(很權威的 AI 競賽網站)上有很多區分貓和狗的訓練數據,大部分都是上萬的量級(1w+的貓和1w+的狗)。

到底多少算夠用呢?

區分貓和狗這種非常簡單的任務都需要上萬的數據,對於更複雜的任務,就需要上百萬甚至上億的數據。具體要多少跟你要解決的問題複雜度,模型選擇,預期結果都有關係。

不過有一條原則是不會變:數據越多,效果越好!

數據越多,效果越好

案例分析

假如你是遊戲公司的老闆,想利用人工智慧技術提升遊戲的收入,從數據角度評估一下是否可行?

電商平台通過推薦演算法可以讓購物者花更多錢,那麼在遊戲里結合推薦演算法,理論上也可以讓玩家花更多的錢。

推薦演算法的本質是:挖掘用戶需求,將匹配需求的商品推薦給用戶。

應用到遊戲里則是:挖掘用戶的需求和他的消費能力,將匹配需求的道具,以合適的價格推薦給用戶

挖掘用戶的需求和他的消費能力,將匹配需求的道具,以合適的價格推薦給用戶

第一步:數據是否可獲取?

遊戲算是數字化程度很高的領域了,但即便如此,還是有部分因素並沒有數據化。比如:

  • 一些遊戲玩家都會在微信群里聊天和互動,這部分數據遊戲是沒有的
  • 老婆發現老公在遊戲里泡妞,被迫卸載了遊戲。這種遊戲外發生的事情有時候也會影響到遊戲內。
  • 玩家的心理活動也是沒有數據的(這次活動打折好厲害,但是我要忍住!不然又要吃一星期泡麵了~)

夠不夠用呢?下一步全面性的時候再分析。

「數據可獲取」看似是一個很白痴的問題,但是很多行業的數字化程度非常低,這個問題對於他們來說並不簡單。

第二步:數據全面性是否夠用?

想要判斷玩家的需求和消費能力,大致有下面一些影響因素:

  1. 用戶屬性
    1. 玩家屬性(年齡、性別、地理位置…)
    2. 角色屬性(等級、裝備情況、剩餘鑽石數量…)
  2. 行為數據
    1. 遊戲行為(買過什麼東西、參與過什麼玩法、打過什麼副本…)
    2. 消費行為(活動頁面停留時長、買過什麼東西、花過多少錢…)
    3. 玩家互動(跟誰組過隊、跟誰打過架、跟誰參加過活動…)
    4. 聊天數據(跟誰、說過什麼話、遊戲內+遊戲外)
    5. 心理活動(想要什麼、喜歡什麼、覺得多收錢值…)
  3. 商品屬性
    1. 商品價格
    2. 商品作用
    3. 商品特點
    4. 購買條件
跟玩家消費相關的因素

還是參考電商的經驗,亞馬遜、阿里巴巴都已經驗證過:

在缺失「聊天數據」「心理活動數據」「電商平台外數據」的情況下,依然能有效的挖掘出用戶需求,刺激消費。

而遊戲不但有推薦的權利,還有定價權,可以通過降價進一步的刺激消費。所以全面性角度是 OK 的。

PS:所以在全面性的評估上,不需要理論上 100% 全面,而是達到可用的程度即可,這個事前只能找案例參考。

第三步:數據夠不夠多?

推薦系統是一種特殊性的情況,他對數據量的要求很有彈性,在數據量少的事情有很多手段來解決冷啟動的問題。隨著數據量的增多,演算法的作用逐步加大。

一個新用戶下載了淘寶,依然不妨礙推薦,只不過用的越多推薦的越靠譜一些而已。

PS:在評估數據是否足夠時,盡量找經驗豐富的技術諮詢一下。

所以,經過3個數據角度的評估,「通過推薦演算法提升遊戲收入」的設想應該是可行的。

總結

評估能不能用人工智慧技術時,「數據」可以說是最重要的一個維度。

具體評估時,想清楚下面3個問題:

  1. 數據可獲取嗎?
  2. 數據全面嗎?
  3. 數據多嗎?

3個問題需要同時滿足,才算是「貌似可行」。

在評估「要不要用」和「能不能用」人工智慧時,需要考慮很多問題。這個系列還會持續更新,關注我的公眾號查看所有內容:

公眾號:打不死的小強(xiaoqiang-me)

擴展閱讀:

機器學習實操的7個步驟

數據收集六步曲,打好機器學習模型基礎

AI 數據集最常見的6大問題(附解決方案)