我的業務要不要用人工智慧？引入AI前你需要評估的（二）

這是一個系列文章，從各個角度來評估一個問題：「我的業務要不要用 AI ？能不能用 AI？」
本期評估角度——數據。

系列文章列表：

我的業務要不要用人工智慧？引入AI前你需要評估的（一）

我的業務要不要用人工智慧？引入AI前你需要評估的（二）

我的業務要不要用人工智慧？引入AI前你需要評估的（三）

我的業務要不要用人工智慧？引入AI前你需要評估的（四）

底層邏輯：數據驅動

基於規則的舊時代

在人工智慧普及之前，大家用的產品都是「基於規則」的。

我們通過總結規則，然後讓計算機自動的執行這些規則，我們日常工作和生活中很多問題都是基於規則來處理的，比如：

Excel 中的各種公式的規則就是：將選中的區域進行計算
郵件的規則就是：將內容發給收件人
公眾號的規則就是：將關注的公眾號內容推送給你

基於規則的好處就是：所以人都能知道在什麼情況下得到什麼結果，一切都是可以預判的。

但是基於規則的方法也有很大的弊端：很多問題，很難（甚至無法）總結出有效的規則。

基於數據的 AI 時代

人工智慧發展到現在（2019年），最核心的底層邏輯是：「基於數據」。

規則能很好解決的問題當然是用規則來解決，因為他的成本低，可解釋性強。但是很多問題沒有有效個規則，這個時候人工智慧的價值就凸顯了。

「基於數據」的方法簡單說就是：從海量數據中找規律，這些規律是很抽象的，並不能總結成具象的規則。比如：

給機器看海量的貓和狗的照片，它就具備了「區分貓和狗」的能力
給機器海量的中英文對照文章，它就具備了「中英文翻譯」的能力
給機器海量的文章，它甚至可以具備「寫文章」的能力

基於數據的好處是：只要有足夠多的優質數據，那麼機器就能學會某些技能，數據越多，能力越強。

但是基於數據的方法也有明顯的弊端：機器只能告訴你「是什麼」，但是無法告訴你「為什麼」。

擴展閱讀：

《「2019更新」什麼是人工智慧？（AI的本質+發展史+局限性）》

《自然語言處理為什麼從規則轉到統計的方法？》

《人工智慧》有詳細介紹這段歷史

想要用 AI，需要知道數據金字塔

上文已經說明了「基於數據」的邏輯，那麼支撐這個邏輯的就是「數據」。

沒有數據，就無從基於數據。所以想要用人工智慧，需要考慮業務場景的數據3要素：

數據可獲取
數據全面
數據多

他們3個類似金字塔的結構，先有「數據可獲取」再談「數據全面」，有了「數據全面」再談「數據多」。

數據可獲取

想要解決問題，就需要具備「跟這個問題相關的數據」。比如上面提到的例子：

給機器看海量的貓和狗的照片，它就具備了「區分貓和狗」的能力。

這裡需要的數據不光是照片本身，還需要將照片里的貓和狗標註出來，如下圖：

所以，你要考慮的問題是：

我遇到的問題有哪些影響因素？
這些影響因素是數字化的嗎？如果不是，能否數字化？
這些數據是否可以獲取？成本高嗎？值得嗎？

數據全面

假如我們只能看到 10% 的照片，現在讓你區分照片中是貓還是狗，這會非常難。如下圖：

當我們能看到照片的 50% 時，還能猜一下。

當我們可以看到100%的照片時，就信心十足了。

人是如此，機器也是如此，你都不讓我看全，我怎麼分析啊！

所以，當我們想要利用人工智慧技術來解決實際問題時，你需要仔細分析這個問題：

到底有哪些影響因素？是否有對應的數據？
有數據的因素是否足夠全面？
關鍵因素的數據有遺漏嗎？

數據多

還是區分貓和狗的例子。貓大概有40多個品種，狗大概有接近200個品種。並且照片可以從不同的角度，不同的背景，不同的光線下拍攝，會產生無數種組合。

想要有效的區分貓和狗，需要大量的不同的照片才行。kaggle（很權威的 AI 競賽網站）上有很多區分貓和狗的訓練數據，大部分都是上萬的量級（1w+的貓和1w+的狗）。

到底多少算夠用呢？

區分貓和狗這種非常簡單的任務都需要上萬的數據，對於更複雜的任務，就需要上百萬甚至上億的數據。具體要多少跟你要解決的問題複雜度，模型選擇，預期結果都有關係。

不過有一條原則是不會變：數據越多，效果越好！

案例分析

假如你是遊戲公司的老闆，想利用人工智慧技術提升遊戲的收入，從數據角度評估一下是否可行？

電商平台通過推薦演算法可以讓購物者花更多錢，那麼在遊戲里結合推薦演算法，理論上也可以讓玩家花更多的錢。

推薦演算法的本質是：挖掘用戶需求，將匹配需求的商品推薦給用戶。

應用到遊戲里則是：挖掘用戶的需求和他的消費能力，將匹配需求的道具，以合適的價格推薦給用戶。

第一步：數據是否可獲取？

遊戲算是數字化程度很高的領域了，但即便如此，還是有部分因素並沒有數據化。比如：

一些遊戲玩家都會在微信群里聊天和互動，這部分數據遊戲是沒有的
老婆發現老公在遊戲里泡妞，被迫卸載了遊戲。這種遊戲外發生的事情有時候也會影響到遊戲內。
玩家的心理活動也是沒有數據的（這次活動打折好厲害，但是我要忍住！不然又要吃一星期泡麵了~）

夠不夠用呢？下一步全面性的時候再分析。

「數據可獲取」看似是一個很白痴的問題，但是很多行業的數字化程度非常低，這個問題對於他們來說並不簡單。

第二步：數據全面性是否夠用？

想要判斷玩家的需求和消費能力，大致有下面一些影響因素：

用戶屬性
1. 玩家屬性（年齡、性別、地理位置…）
2. 角色屬性（等級、裝備情況、剩餘鑽石數量…）
行為數據
1. 遊戲行為（買過什麼東西、參與過什麼玩法、打過什麼副本…）
2. 消費行為（活動頁面停留時長、買過什麼東西、花過多少錢…）
3. 玩家互動（跟誰組過隊、跟誰打過架、跟誰參加過活動…）
4. 聊天數據（跟誰、說過什麼話、遊戲內+遊戲外）
5. 心理活動（想要什麼、喜歡什麼、覺得多收錢值…）
商品屬性
1. 商品價格
2. 商品作用
3. 商品特點
4. 購買條件

還是參考電商的經驗，亞馬遜、阿里巴巴都已經驗證過：

在缺失「聊天數據」「心理活動數據」「電商平台外數據」的情況下，依然能有效的挖掘出用戶需求，刺激消費。

而遊戲不但有推薦的權利，還有定價權，可以通過降價進一步的刺激消費。所以全面性角度是 OK 的。

PS：所以在全面性的評估上，不需要理論上 100% 全面，而是達到可用的程度即可，這個事前只能找案例參考。

第三步：數據夠不夠多？

推薦系統是一種特殊性的情況，他對數據量的要求很有彈性，在數據量少的事情有很多手段來解決冷啟動的問題。隨著數據量的增多，演算法的作用逐步加大。

一個新用戶下載了淘寶，依然不妨礙推薦，只不過用的越多推薦的越靠譜一些而已。

PS：在評估數據是否足夠時，盡量找經驗豐富的技術諮詢一下。

所以，經過3個數據角度的評估，「通過推薦演算法提升遊戲收入」的設想應該是可行的。

總結

評估能不能用人工智慧技術時，「數據」可以說是最重要的一個維度。

具體評估時，想清楚下面3個問題：

數據可獲取嗎？
數據全面嗎？
數據多嗎？

3個問題需要同時滿足，才算是「貌似可行」。

在評估「要不要用」和「能不能用」人工智慧時，需要考慮很多問題。這個系列還會持續更新，關注我的公眾號查看所有內容：

公眾號：打不死的小強（xiaoqiang-me）

擴展閱讀：

《機器學習實操的7個步驟》

《數據收集六步曲，打好機器學習模型基礎》

《AI 數據集最常見的6大問題（附解決方案）》

我的業務要不要用人工智慧？引入AI前你需要評估的（二）

底層邏輯：數據驅動

基於規則的舊時代

基於數據的 AI 時代

想要用 AI，需要知道數據金字塔

數據可獲取

數據全面

數據多

案例分析

總結

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

關注我們的公眾號：easyai-tech

底層邏輯：數據驅動

基於規則的舊時代

基於數據的 AI 時代

想要用 AI，需要知道數據金字塔

數據可獲取

數據全面

數據多

案例分析

總結

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech