這是一個系列文章,從各個角度來評估一個問題:“我的業務要不要用 AI ?能不能用 AI?”
本期評估角度——數據。
系列文章列表:
底層邏輯:數據驅動
基於規則的舊時代
在人工智能普及之前,大家用的產品都是「基於規則」的。
我們通過總結規則,然後讓計算機自動的執行這些規則,我們日常工作和生活中很多問題都是基於規則來處理的,比如:
- Excel 中的各種公式的規則就是:將選中的區域進行計算
- 郵件的規則就是:將內容發給收件人
- 公眾號的規則就是:將關注的公眾號內容推送給你
基於規則的好處就是:所以人都能知道在什麼情況下得到什麼結果,一切都是可以預判的。
但是基於規則的方法也有很大的弊端:很多問題,很難(甚至無法)總結出有效的規則。
基於數據的 AI 時代
人工智能發展到現在(2019年),最核心的底層邏輯是:「基於數據」。
規則能很好解決的問題當然是用規則來解決,因為他的成本低,可解釋性強。但是很多問題沒有有效個規則,這個時候人工智能的價值就凸顯了。
「基於數據」的方法簡單說就是:從海量數據中找規律,這些規律是很抽象的,並不能總結成具象的規則。比如:
- 給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力
- 給機器海量的中英文對照文章,它就具備了「中英文翻譯」的能力
- 給機器海量的文章,它甚至可以具備「寫文章」的能力
基於數據的好處是:只要有足夠多的優質數據,那麼機器就能學會某些技能,數據越多,能力越強。
但是基於數據的方法也有明顯的弊端:機器只能告訴你「是什麼」,但是無法告訴你「為什麼」。
擴展閱讀:
《「2019更新」什麼是人工智能?(AI的本質+發展史+局限性)》
《人工智能》有詳細介紹這段歷史
想要用 AI,需要知道數據金字塔
上文已經說明了「基於數據」的邏輯,那麼支撐這個邏輯的就是「數據」。
沒有數據,就無從基於數據。所以想要用人工智能,需要考慮業務場景的數據3要素:
- 數據可獲取
- 數據全面
- 數據多
他們3個類似金字塔的結構,先有「數據可獲取」再談「數據全面」,有了「數據全面」再談「數據多」。
數據可獲取
想要解決問題,就需要具備「跟這個問題相關的數據」。比如上面提到的例子:
給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力。
這裡需要的數據不光是照片本身,還需要將照片里的貓和狗標註出來,如下圖:
所以,你要考慮的問題是:
- 我遇到的問題有哪些影響因素?
- 這些影響因素是數字化的嗎?如果不是,能否數字化?
- 這些數據是否可以獲取?成本高嗎?值得嗎?
數據全面
假如我們只能看到 10% 的照片,現在讓你區分照片中是貓還是狗,這會非常難。如下圖:
當我們能看到照片的 50% 時,還能猜一下。
當我們可以看到100%的照片時,就信心十足了。
人是如此,機器也是如此,你都不讓我看全,我怎麼分析啊!
所以,當我們想要利用人工智能技術來解決實際問題時,你需要仔細分析這個問題:
- 到底有哪些影響因素?是否有對應的數據?
- 有數據的因素是否足夠全面?
- 關鍵因素的數據有遺漏嗎?
數據多
還是區分貓和狗的例子。貓大概有40多個品種,狗大概有接近200個品種。並且照片可以從不同的角度,不同的背景,不同的光線下拍攝,會產生無數種組合。
想要有效的區分貓和狗,需要大量的不同的照片才行。kaggle(很權威的 AI 競賽網站)上有很多區分貓和狗的訓練數據,大部分都是上萬的量級(1w+的貓和1w+的狗)。
到底多少算夠用呢?
區分貓和狗這種非常簡單的任務都需要上萬的數據,對於更複雜的任務,就需要上百萬甚至上億的數據。具體要多少跟你要解決的問題複雜度,模型選擇,預期結果都有關係。
不過有一條原則是不會變:數據越多,效果越好!
案例分析
假如你是遊戲公司的老闆,想利用人工智能技術提升遊戲的收入,從數據角度評估一下是否可行?
電商平台通過推薦算法可以讓購物者花更多錢,那麼在遊戲里結合推薦算法,理論上也可以讓玩家花更多的錢。
推薦算法的本質是:挖掘用戶需求,將匹配需求的商品推薦給用戶。
應用到遊戲里則是:挖掘用戶的需求和他的消費能力,將匹配需求的道具,以合適的價格推薦給用戶。
第一步:數據是否可獲取?
遊戲算是數字化程度很高的領域了,但即便如此,還是有部分因素並沒有數據化。比如:
- 一些遊戲玩家都會在微信群里聊天和互動,這部分數據遊戲是沒有的
- 老婆發現老公在遊戲里泡妞,被迫卸載了遊戲。這種遊戲外發生的事情有時候也會影響到遊戲內。
- 玩家的心理活動也是沒有數據的(這次活動打折好厲害,但是我要忍住!不然又要吃一星期泡麵了~)
夠不夠用呢?下一步全面性的時候再分析。
「數據可獲取」看似是一個很白痴的問題,但是很多行業的數字化程度非常低,這個問題對於他們來說並不簡單。
第二步:數據全面性是否夠用?
想要判斷玩家的需求和消費能力,大致有下面一些影響因素:
- 用戶屬性
- 玩家屬性(年齡、性別、地理位置…)
- 角色屬性(等級、裝備情況、剩餘鑽石數量…)
- 行為數據
- 遊戲行為(買過什麼東西、參與過什麼玩法、打過什麼副本…)
- 消費行為(活動頁面停留時長、買過什麼東西、花過多少錢…)
- 玩家互動(跟誰組過隊、跟誰打過架、跟誰參加過活動…)
- 聊天數據(跟誰、說過什麼話、遊戲內+遊戲外)
- 心理活動(想要什麼、喜歡什麼、覺得多收錢值…)
- 商品屬性
- 商品價格
- 商品作用
- 商品特點
- 購買條件
還是參考電商的經驗,亞馬遜、阿里巴巴都已經驗證過:
在缺失「聊天數據」「心理活動數據」「電商平台外數據」的情況下,依然能有效的挖掘出用戶需求,刺激消費。
而遊戲不但有推薦的權利,還有定價權,可以通過降價進一步的刺激消費。所以全面性角度是 OK 的。
PS:所以在全面性的評估上,不需要理論上 100% 全面,而是達到可用的程度即可,這個事前只能找案例參考。
第三步:數據夠不夠多?
推薦系統是一種特殊性的情況,他對數據量的要求很有彈性,在數據量少的事情有很多手段來解決冷啟動的問題。隨着數據量的增多,算法的作用逐步加大。
一個新用戶下載了淘寶,依然不妨礙推薦,只不過用的越多推薦的越靠譜一些而已。
PS:在評估數據是否足夠時,盡量找經驗豐富的技術諮詢一下。
所以,經過3個數據角度的評估,「通過推薦算法提升遊戲收入」的設想應該是可行的。
總結
評估能不能用人工智能技術時,「數據」可以說是最重要的一個維度。
具體評估時,想清楚下面3個問題:
- 數據可獲取嗎?
- 數據全面嗎?
- 數據多嗎?
3個問題需要同時滿足,才算是「貌似可行」。
在評估「要不要用」和「能不能用」人工智能時,需要考慮很多問題。這個系列還會持續更新,關注我的公眾號查看所有內容:
公眾號:打不死的小強(xiaoqiang-me)
擴展閱讀:
Comments