AI產品經理如何為機器學習創建數據策略

背景

本文是關於產品經理如何將機器學習融入其產品的大量研究（參見下文其他文章）的一部分，由Brian Polidori和我自己在加州大學伯克利分校的MBA學習，在Vince Law的幫助下擔任我們的指導老師。

該研究旨在了解產品經理如何設計，規劃和構建支持ML的產品。為了達到這種理解，我們採訪了各個技術公司的15位產品開發專家。在代表的15家公司中，14家公司的市值超過10億美元，11家公開上市，6家是B2C，9家是B2B。

產品經理指導ML系列：

數據戰略原則

啟用機器學習（ML）產品具有持續的收集，清理和分析數據循環，以便輸入ML模型。這種重複循環是ML演算法的動力，並使ML產品能夠為用戶提供有用的見解。

循環中的每一步都是一個獨特的挑戰。因此，我們通過框架和示例深入探討了每個數據戰略步驟，突出了其中一些獨特的挑戰。

有機數據創建

在商業領域，公司增長通常在有機和無機增長之間分解。有機增長是指公司自身業務活動帶來的增長，而無機增長則來自併購。這個相同的概念可以應用於數據創建過程。

有機數據創建是指將數據（即用於通知ML模型的數據）創建為產品本身的副產品。無機數據創建是指從第三方獲取（購買或免費訪問）數據。所有最大的技術公司都在有機數據創建戰略下運營。

Facebook知道誰建議你作為可能的朋友聯繫，因為你已經確認了你與其他類似的人的友誼。由於您過去的所有購買和瀏覽歷史記錄，亞馬遜都知道您可能購買的其他產品。而Netflix知道接下來會推薦哪個節目，因為你看過去的節目。

一個值得注意的例外是公司剛開始時。公司可能需要無機地獲取數據以構建初始ML模型，並且隨著時間的推移使用該ML模型來創建必要的網路效應以開始有機數據創建過程。

要點（有機數據創建的四大好處）：

經濟高效 – ML模型需要大量數據才能進行培訓，這些數據需要不斷更新和刷新（參見下面的數據過期部分）。
代表性數據 - 有機數據創建可能包含代表您特定用戶的數據，因為它實際上是由您的用戶創建的。
競爭優勢 - 作為一種天然的副產品，有機數據是專有的，可以作為競爭對手無法複製的競爭優勢。
網路效果 - 有機數據創建可以增加網路效應的功能，因為隨著用戶的增加，數據也會增加，從而導致模型的改進。

人的反饋

就其本質而言，ML能夠通過接收反饋來「學習」如何最佳地執行任務 – 大量反饋。此反饋主要有兩種形式：

用戶生成的反饋
手動人在循環審查

用戶生成的反饋

用戶生成的反饋是有效的數據創建。對於許多用例，用戶生成的反饋相對容易捕獲。例如，我們的一位受訪者向我們提供了以下示例 – 這通常適用於所有搜索用例。

當用戶在該公司的網站搜索欄中鍵入查詢並點擊輸入時 – 顯示20個結果。然後，用戶快速掃描摘要文本，並且（很可能）點擊其中一個。用戶是從列表中選擇的用戶 – 這是關鍵。雖然這是相當明顯的，但重要的是要詳細說明並明確界定其重要性。

世界上唯一知道所呈現的20個結果中哪一個與用戶最相關的人是實際用戶。其他任何人都會猜測。因此，用戶不僅可以滿足自己的需求，還可以使用最準確的數據幫助訓練ML模型。

因此，產品內用戶反饋是您的ML模型可以獲得的最有價值的反饋類型。此外，它不需要您僱用人員（不像下面討論的人在環中），並且能夠隨著您的產品規模擴展。

有時，捕獲用戶反饋更加困難，並且必須將其他元素添加到用例中。添加這些附加元素的關鍵是以一種改善用戶體驗並確保部分採用的方式構建反饋渠道。

例如，當LinkedIn開始擴展它的InMail消息服務時，它決定引入兩個回複選項。當招聘人員向您伸出援手時，LinkedIn會提供兩個回復，「是」或「不，謝謝。」這是一個簡單的解決方案，不僅通過讓用戶更快地改善用戶體驗，而且還向LinkedIn提供高度結構化的用戶反饋意見可以用來訓練其ML模型。隨著時間的推移，LinkedIn推出了更多支持ML的產品，例如Smart Reply，它們受益於相同的產品內反饋機制。

關鍵點

在您的產品中創建結構化的反饋點，用戶可以親自激勵他們選擇提供反饋（Facebook照片標記，LinkedIn招聘人員回復）。
從本質上講，單個用戶的操作是ML模型可以為該特定用戶接收的最準確的數據。
利用用戶生成的反饋來增強ML模型，並在用戶和ML準確度之間創建強化網路效果。

人在循環中

人與人之間的反饋是指您向一個人付費查看特定用例或數據集並提供他們受過教育的意見（例如，標籤，是/否等）。儘管我們的受訪者表示大多數公司可能會聘請第三方公司或創建內部團隊，但您也可以將這種人在循環過程視為機械特克。

考慮到人類在循環反饋的不可擴展性，我們驚訝地發現超過一半的受訪者表示他們的公司目前正在使用或計劃使用人在環來為他們的ML模型提供結構化反饋。

為了將這個概念變為現實，讓我們來看一個例子。

Quora是一個問答網站，由用戶社區提問，回答和組織問題。排序通過平台上的所有雜訊，Quora的允許用戶給予好評的答案，幫助質量反應上升到頂部。

Quora注意到一些內容會收到很多內容，但經過審核，質量會低於標準，並已轉變為「clickbait」內容。因此，為了增強upvote功能，Quora還決定採用人在環的反饋。Quora現在將一小部分問題和答案發送給已根據Quora標準進行培訓的人（下面將詳細介紹），以數字級評估飼料質量，以便將其輸入ML模型。

從本質上講，人在迴路反饋是一種手動過程，因此非常昂貴。由於與人在環相關的成本過高，只有大公司似乎在廣泛使用它來提供反饋。事實上，一些受訪者指出，與人在環節相關的成本幫助公司圍繞業務創造了「護城河」。例如，Facebook被認為擁有超過3,000名團隊，致力於標籤和內容審核。

當我們分析我們的受訪者使用人在環的用例時，我們發現了幾個首要原因。

用例沒有絕對（即普遍真實的）量化指標來衡量績效。因此，人類評論者是質量的最高標準，需要基於細微差別規則的主觀決策。

上面的Quora示例說明了這一點。對於特定帖子，Quora用于衡量ML結果成功的參與度量可能很高，但人類解釋質量（相對於規定的規則）較低。

如果ML模型不正確並且人類有能力在個體基礎上確定某些事物是否正確，則存在顯著的下行風險。

例如，如果社交網路沒有正確執行內容審核，則存在重大的公共關係風險。提供規則的人可以合理地確定一條內容是否遵守或違反這些規則。

規則分類

受訪者提出的關於人在循環的一個問題是難以創建指導原則，用於指導審閱者進行人工檢查。指導原則不僅要具體到足以限制審稿人必須做出主觀決定的「灰色」區域的數量，而且還要足夠簡單以便審閱者能夠有效地執行任務。許多受訪者提到他們公司的指導原則受到激烈爭論並不斷變化。

關鍵點

有時，用戶生成的反饋不足以滿足產品的目標，需要通過人在循環反饋來增強
人在環評估者花費了大量資金，有效設置這種人工審核的過程成本更高。但是，一旦這些程序根深蒂固地進入產品流程，它們就可以帶來競爭優勢
為人類審稿人創建規則分類法很困難。應該認真考慮確定標籤規則以延長數據到期日期（有關更多詳細信息，請參閱數據到期部分）。

數據到期

在我們採訪的15人中，有11人提到了數據及時性的重要性。有些人提到了特定的法規或合同要求，迫使他們在60-90天後清除用戶特定的數據。而其他人則表示舊數據不太可能提供信息（參見Reddit的排名演算法）或提高預測價值。這種數據的及時性似乎不僅適用於用戶生成的數據，而且適用於人在環評估的一些實例。

例如，Facebook試圖在其平台上維護有關小型企業的最新信息（例如，網站，小時，電話號碼等）。除了讓這些小企業擁有其Facebook頁面的所有權之外，Facebook還使用人在回顧的審閱者來檢查一小部分業務頁面，並查看數據是否是最新的。

但是，在審核人員確認小企業的數據是最新的之後，數據仍然是最新的概率開始下降。根據經驗，我們聽說在審查後約6個月，數據同樣可能是陳舊的，因為它是最新的 – 但是，時間範圍將根據具體的用例而有很大差異。

在舊數據變得陳舊且無關緊要之前，公司一直在努力獲取新數據。這是公司應該圍繞有機數據創建構建產品的另一個原因。

關鍵點

一旦創建了數據，它在ML模型中的有用性就開始下降，對於某些用例，這種數據衰減會在數天到數周內發生。
由於數據的有用性短，公司應該專註於有機數據創建，以便不斷將新數據引入系統。

本文轉自medium，原文地址

背景

數據戰略原則

有機數據創建

人的反饋

用戶生成的反饋

人在循環中

數據到期

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

關注我們的公眾號：easyai-tech

背景

數據戰略原則

有機數據創建

人的反饋

用戶生成的反饋

人在循環中

數據到期

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech