本文轉自《The Only 3 ML Tools You Need

全文由機器翻譯,很多地方閱讀體驗不佳,但是不影響全文的理解。

圖片作者

快速發展的許多機器學習技術已經從概念驗證轉變為為人們日常依賴的關鍵技術提供支持。為了抓住這個新近釋放的價值,許多團隊發現自己陷入了在產品中機器學習生產化的熱潮,而沒有合適的工具來成功地做到這一點。

事實是,我們是在早期局Ø ˚F確定正確的工具套件將是什麼樣子的構建,部署和迭代的機器學習模型。在本文中,我們將討論使團隊成功地在產品中應用機器學習所需的僅3種ML工具。

讓我們從過去中學習

在我們提出ML堆棧建議之前,讓我們迅速將注意力轉移到軟件工程行業如何適應的工具上。一個主要的觀察結果是,沒有一種解決方案可用於構建,部署和監視生產中的代碼。

換句話說,不存在端到端工具平台。相反,有一組工具專註於軟件工程生命周期的特定部分。

圖片作者

為了簡化軟件的創建,必須創建工具來跟蹤問題,管理版本歷史記錄,監督構建以及在生產中出現問題時提供監視和警報。

儘管並非每種工具都明確地適合其中一個類別,但是這些工具類別中的每一個都代表了創建軟件過程中的一個明顯摩擦點,因此需要創建工具。

我以為這與機器學習有關?

就像軟件開發過程一樣,機器學習模型的開發過程具有廣泛的類別,這些類別與研究,構建,部署和監視模型所需的內容保持一致。

在本篇文章中,我們將重點介紹在解決實驗室外應用機器學習的一些最大障礙的過程中出現的基本ML工具類別。

要創建有效的機器學習工具箱,您實際上僅需要以下三個基本工具:

  1. Feature Store:處理離線和在線功能轉換
  2. Model Store:充當中央模型註冊中心並跟蹤實驗
  3. Evaluation Store:監視和改善模型性能
圖片作者

Feature Store

首先,讓我們深入研究Feature Store。要定義功能庫是什麼,讓我們從功能庫應為您的團隊啟用的功能開始。

功能存儲應啟用的功能:

  1. 用作特徵轉換的主要來源
  2. 允許在離線培訓和在線服務中使用相同的功能轉換
  3. 使團隊成員可以共享他們的轉換以進行實驗
  4. 為功能轉換代碼提供強大的版本控制

除了功能部件商店應如何賦予您的團隊權力外,這裡還列出了一些必備功能,這些功能可以幫助您確定哪個功能部件商店最適合您和您的團隊。

功能商店應具備的功能:

  1. 與您的數據存儲/湖集成
  2. 為模型在線部署提供特徵轉換的快速方法
  3. 快速輕鬆地將功能轉換代碼部署到生產中
  4. 與您的評估商店集成,以進行數據和功能質量檢查

推薦:

構造子

Model Store

現在您已經擁有一個存儲特徵轉換的特徵存儲,現在需要一個可以對團隊模型創建歷史進行分類和跟蹤的工具。這就是Model Store發揮作用的地方。

模型存儲應啟用的功能:

  1. 充當所有模型和模型版本的中央存儲庫
  2. 允許每個模型版本的重現性
  3. 追蹤模型歷史沿襲

在這些核心功能之外,還有許多模型存儲功能,您可能會發現它們對構建和部署模型非常有幫助。

f1“>您的模型商店應具備的功能:

  1. 應該能夠跟蹤模型的每個版本,git提交,模型的工件(修補文件)的引用數據集
  2. 應該提供要服務的任何模型的最新版本,例如(v2.1)
  3. 保持一致的血統以在需要時回滾版本
  4. 與您的評估商店集成,以跟蹤每個版本的模型的評估以查明模型回歸
  5. 與您的服務基礎架構集成,以促進模型部署和回滾

推薦:

權重和偏向MLFlow

Evaluation Store

現在,您已經跟蹤了模型並將其存儲在模型存儲中,您需要能夠選擇一個模型以進行發貨並監視其在生產中的性能。這是評估商店可以提供幫助的地方。

評估存儲應啟用的功能:

  1. 在任何環境,生產,驗證,培訓中匯總任何模型的匯總(或切片)性能指標
  2. 使用基準監控和識別漂移,數據質量問題或異常性能下降
  3. 使團隊能夠將績效變化與發生變化的原因聯繫起來
  4. 提供一個平台來幫助不斷提供高質量和反饋迴路的模型,以進行改進-將生產與培訓進行比較
  5. 為A / B測試模型版本提供實驗平台

現在,我們將注意力轉移到評估商店的必備功能上,以下幾點使一個特殊的評估商店值得考慮。

您的評估商店應具備的功能:

  1. 存儲模型評估:跨環境的每個模型版本的輸入,SHAP值和輸出:生產,驗證和培訓
  2. 自動化監控可輕鬆發現問題-基於評估存儲庫得出的基準
  3. 靈活的儀錶板創建,可用於任何類型的性能分析— DataDog for ML
  4. 與您的功能存儲集成,以跟蹤功能漂移
  5. 與您的模型庫集成,以具有每個模型版本的模型性能的歷史記錄

推薦:

阿里茲

可能適合您的其他工具

數據注釋平台:

讓我們退後一步,說您剛剛收集了數據,其中可能有也可能沒有地面真相標籤。現代統計機器學習模型通常需要大量的訓練數據才能表現良好,而使用地面真相標籤注釋足夠的數據以使模型有效的能力可能是一個很大的挑戰。

不用擔心,數據注釋平台會將您的數據批次分發到一組分佈式的評分器,每個評分器將根據您提供的說明為您的數據添加標籤。

推薦:

  1. 阿彭
  2. 可擴展為全自動數據注釋服務

模型服務平台:

在許多應用了機器學習的情況下,您將需要某種形式的服務平台才能將模型部署到用戶。簡要地說,這是服務平台應為您的團隊提供的一些核心功能。

模型服務平台應實現以下功能:

  1. 圍繞模型服務的訪問控制,只有一部分人有權更改部署的模型。
  2. 如果需要,可以快速回滾到以前部署的模型版本的機制
  3. 靈活支持不同的ML應用程序類型。例如,在預測延遲不成問題的情況下,您的服務平台應允許批處理推理以針對計算進行優化
  4. 與模型商店很好地集成,以方便模型推廣
  5. 與評估庫很好地集成,以實現生產中模型的可觀察性。

推薦:

Kubeflow算法