當我在大學時,附近有一家雪糕店,我和幾個朋友去看看。我們走了進去,它看起來完全正常 – 它們有所有常見的味道,如薄荷,巧克力等。然而,在櫃檯的盡頭,他們有這種味道叫做「西蘭花驚喜」。一個自然好奇的人,我不得不嘗試。我向櫃檯後面的服務員詢問樣品。它是白色的,帶有少許綠色斑點,味道甜美,奶油味濃郁。我很困惑 – 這裡沒有西蘭花的味道。所以我問,「有什麼驚喜?」「沒有西蘭花,」她笑着回答。

機器學習(ML)也有驚喜。關於組織內部ML部署的最大誤解之一是理解困難和價值。

將ML集成到您的業務工作流程中可以分為五個活動:

定義關鍵績效指標 – 關鍵績效指標使我們能夠衡量和討論我們正在努力改進的內容。常見的KPI包括客戶保留,製造收益或員工流動。設置KPI是機器學習中的關鍵步驟,因為它們最終會推動優化到高性能模型。

收集數據 – 收集將用於訓練ML算法的數據。是的,如果您缺少數據,您可以使用其他人生產的ML模型。但是,這些業務考慮與其他SaaS產品類似,所以讓我們將它們排除在範圍之外。

基礎設施 – ML基礎設施包括各種軟件:數據管理,注釋工具,模型培訓和測試環境。此基礎架構是一項前期投資,但可以更有效地迭代和改進模型和數據集。

優化ML算法 – 在這裡我們考慮基於給定數據集/問題使用哪種模型,必要訓練數據量,神經網絡中的層以及超參數調整等因素。有太多的選擇。

集成 – 讓ML模型在真空中工作是一項偉大的成就,但直到模型與真實的工作流程集成才開始產生切實的業務影響。集成是構建管道和結構的過程,可以在用戶和計算機之間無縫傳遞信息和數據。

基於與有興趣部署機器學習的公司的許多對話,在優化機器學習算法中需要很高的感知努力並從中獲益。

這有幾個可能的原因:

  • 對於大多數從業者來說,優化ML模型是堆棧中最大的「未知」,因此很容易想像它比實際更複雜和耗時。
  • 可用性啟發式 – 由於ML算法和優化在文獻和媒體中被更多地討論,人們通常認為它們比實際實現過程中扮演更大的角色。

驚喜

當我與在Google內部構建和擴展這些ML系統的經驗豐富的從業者交談時,我聽到了一個非常不同的故事。基於這些對話,優化ML算法所需的相對努力要少得多,但是 收集數據, 建築基礎設施 和 積分 每需要做更多的工作。期望與現實之間的差異是深遠的。

定義KPI – 一旦我們部署了數據驅動的系統,我們就會花更少的時間和組織資源來選擇KPI,因為有不斷的數據反饋流。這消除了對代理KPI的需求。由於良好的ML取決於良好的數據,我們必須擁有一個很好的收集管道。

收集數據 – 收集數據幾乎總是低估了啟動ML項目的組成部分。在上一篇文章中描述了構建數據收集和處理策略時要考慮的一些因素。

基礎設施 – 基礎設施建設,主要是軟件工程任務,而不是「ML任務」,是大多數項目中最耗時的部分之一。

優化ML算法 – 培訓和優化ML模型的任務幾乎總是花費比預期更少的時間和精力,原因有兩個。首先,性能是您擁有的數據的強大功能。然而,與清理數據相比,調整算法帶來的好處相形見絀。其次,用於優化ML算法的工具(如AutoML)使得基於標記或未標記數據訓練和優化模型變得更加容易和快捷。

集成 – 集成是ML部署過程中另一個被低估的部分。錯誤和異常處理,冗餘以及從靜態產品轉移到連續迭代之一的挑戰提出了許多軟件,產品和工程挑戰。想想你的訓練數據中隱藏的所有技術債務!

– –

ML實際上有兩個驚喜。

首先,許多公司錯誤地認為ML實施過程的哪些部分將是困難的。工具和技術進步正大大改變了ML優化,其速度是軟件基礎設施所無法比擬的,用於強力數據收集和管理。像西蘭花雪糕一樣 – 在端到端的ML系統中通常沒有那麼多的ML。

其次,實施ML 的路徑(詢問有關您的客戶的問題,建立基礎設施以收集,解釋和處理該數據等)是有價值的,無論ML到底是否實際實施。並非所有問題都有ML驅動的解決方案,但許多問題都有,甚至那些沒有問題的解決方案也會受益於這一旅程。

本文轉自medium,原文地址