背景

本文是關於產品經理如何將機器學習融入其產品的更大型獨立研究(見下文)中的一部分。它由Ryan Dingler我自己在加州大學伯克利分校的MBA學習,在Vince Law的幫助下擔任我們的指導老師

該研究旨在了解產品經理如何設計,規劃和構建支持機器學習的產品。為了達到這種理解,我們採訪了各個技術公司的15位產品開發專家。在代表的15家公司中,14家公司的市值超過10億美元,11家公開上市,6家是B2C,9家是B2B。

產品經理指導ML系列:

識別機會

如果你在過去幾年裡曾經在一個產品團隊工作過,你可能聽過有人(可能是PM)問過,「我們不能只用機器學習(ML)解決這個問題嗎?」

ML有一個共同的概念,即可以解決產品經理面臨的諸多挑戰。通過我們的手機上的虛擬助手和每次購買後的個性化建議,很難否認ML正在改變產品的構建和消費方式。但是,通常很難知道在產品中利用ML的位置。

為什麼這很重要?

談到機器學習,找到接下來要解決的問題至關重要。數據科學家和ML工程師等資源有限。為您的團隊選擇錯誤的項目不僅成本高昂,而且還會損害士氣,客戶信任,並導致產品失敗。

正確的問題識別可以幫助防止您的工作進入ML模型和產品的墳場。

機器學習有什麼問題可以解決?

在我們的研究中,我們遇到了各種各樣的公司在他們的產品中使用ML的方式。但是,我們注意到所有這些用例中的一些常見趨勢,並將它們分解為四個(有時是重疊的)問題區域:檢測異常,過濾信息,調節內容以及自動執行重複性任務。

這些領域旨在提供哪些類型的業務問題可能是ML的良好候選者的示例。

注意:我們提供了一些與我們在研究中遇到的相似的示例。確定的區域是我們在採訪中直接觀察到的區域,並非完整列表。

檢測異常

ML非常適合檢測數據中的模式。可以利用這種優勢來幫助用戶更輕鬆地找到與典型模式不匹配的數據點。在我們的研究中,我們發現公司採用監督學習,無監督學習,甚至兩者結合進行異常檢測。選擇的方法取決於用例。

檢測異常

例子

監督:公司通過對數億條款中的欺詐或錯誤進行抽查,定期審核其會計賬簿。由於此任務所需的技術領域知識,這些審核通常非常手動。多年的這些手動審核結果為監督模型提供了出色的標記數據。這些模型產生易於解釋和解釋的輸出。也就是說,模型可能會錯過與培訓集不相似的新型欺詐或錯誤。

無人監管:在數字廣告中,沒有任何控制措施,發布商有很大的動機點擊其網站上的廣告,並讓公司點擊競爭對手的廣告。簡單的啟發式方法可以防止一些欺詐行為,但是無監督的模型可以在數據中找到新的模式,使它們在檢測不同類型的欺詐方面非常出色。根據用戶IP地址,交易和時間等數據,無監督模型可以識別不良參與者。然而,這些模型通常會產生不透明且難以解釋的預測。

組合方法:監督和無監督學習通常是異常檢測的最有效方法。假設一個無監督的模型發現它認為是欺詐的五十個用戶。可以應用監督模型來提供關於這些用戶為何可能是欺詐的更多細節(例如,IP地址相同,類似的時間戳等)。其他方法,如半監督,也可以提高性能。

過濾信息

用戶往往被信息太多的產品所淹沒。使用ML解決此問題有兩種基本方法:搜索和建議。

過濾信息

搜索

搜索是指用戶嘗試「提取」信息的時間。有時,用戶需要查找信息或對象,但不知道要查找什麼或在哪裡找到它們。一個簡單的搜索演算法可以使用文本匹配和最近查看的項目來查找對象,但ML可以做更多。ML模型可以以基於規則的搜索不能的方式考慮搜索結果中的數百或數千個功能。

例子

搜索是Dropbox體驗的核心。當用戶在其組織的Dropbox中搜索「機器學習」時,將返回一組文檔然後進行排名。得到的排名基於查詢文本以上(「機器學習」); 它還使用相關性分數。該分數考慮了搜索者,他們與之交互的人以及他們最近打開的文件(新鮮度)。可以使用易於訪問的數據(如過去的用戶搜索和點擊結果)來訓練這樣的模型。

隨著對大規模計算的訪問的增加,圖像,視頻和音頻搜索變得可能。即使沒有Facebook或YouTube視頻的手動標籤,ML模型也可以提取音頻並使用圖像識別來索引視頻以進行搜索。同樣,Squarespace使用可視化搜索來幫助其用戶查找具有類似主頁圖像的網站。

推薦系統

如果搜索是「拉動」,則建議是「推動」。與搜索一樣,推薦ML模型可幫助用戶導航信息過載,但建議通過向用戶推送個性化信息來實現。推薦ML的最常見應用是社交媒體新聞源和亞馬遜的「購買此商品的客戶也購買。」但是,其他產品也開始向用戶推送個性化推薦。

例子

當用戶打開Instagram,Reddit或LinkedIn時,ML模型會自動提供個性化和無意識的體驗,其中充滿了感興趣的人或主題的更新。即使廣告可以嵌入和個性化,也可以成為推薦體驗的一部分。

打開Nordstroms購物應用程序,您將看到的第一件事是「為您準備的產品」。它使用ML幫助客戶根據之前的購物歷史發現他們可能喜歡的銷售和新產品。Nordstroms還可以幫助您找到之前沒有查看或購買的產品,但是您購買的其他產品也是如此。許多零售商現在利用ML在他們的在線展示中獲得推薦。

審核內容

越來越多的公司依賴其產品中的用戶生成內容,並審核內容變得越來越重要。需要審核照片,文本,音頻,視頻甚至直播流等內容,以遵守每個平台設置的規則。公司不可能讓人類主持人對其所有內容強制執行這些規則。

審核內容

例子

YouTube 每分鐘上傳500小時的視頻,這需要超過100,000名審稿人每周工作40小時。相反,YouTube等企業依靠用戶和ML標記內容供主持人審核。在這個用例中,ML應該反映人類審稿人會做什麼,因為數據都是人類標記的,而成功度量標準正在通過人工審核。這種對人類判斷的依賴使得對ML的調節內容繼續成為一個需要解決的根本挑戰性問題。

另一方面,Reddit在其平台上的調節很少。它優化了語音自由,因此該平台主要是調節非法內容。另一方面,像LinkedIn這樣的專業網路認為任何不適當的內容都是一個巨大的問題。像LinkedIn這樣的平台可以調整內容,ML模型可以調整平台的清潔度,而不會讓團隊或個人感到不安。

自動執行重複性任務

我們看到許多ML應用程序的最後一個問題是自動執行重複性任務。這些任務包括預測銷售線索的質量,輸入和分類收據數據,或發送營銷電子郵件。這個區域通常是在ML開始的好地方,因為標記數據很豐富,並且有直接的時間節省。

例子

提交費用報告的收據是一項非常重複的任務,通過光學字元識別和ML進行自動化。ML模型拍攝收據圖像並自動填寫用戶費用報告中的欄位。舊的手動報告提供了培訓此模型所需的信息,使數據易於訪問(儘管SaaS供應商通常不得不要求訪問客戶數據)。

即使是電子郵件編寫等複雜任務也可以部分自動化 Gmail的智能撰寫使用用戶輸入的先前單詞序列來預測句子中的下一個單詞。

自動執行重複內容

該模型還使用電子郵件標題和字元串中的任何先前電子郵件作為輸入。這種方法採用重複和手動的電子郵件編寫部分,並使用ML自動化它們。

最後的想法

如果您遇到的問題符合這四個區域之一(或另一個未涵蓋的區域),請考慮在啟動機器學習項目時閱讀Produce Manager to-dos

ML技術和能力總是在變化。本文中提出的問題領域並不是全面的,也不是暗示所有問題都可以或應該用ML來解決。

本文轉自medium, 原文地址