本文轉自《The 7 Steps of the Data Science Lifecycle – Applying AI in Business

全文由機器翻譯,不夠通順,但是不影響整體理解

人工智能不是IT,採用人工智能幾乎沒有像採用傳統軟件解決方案那樣。

雖然軟件是確定性的,但AI是概率性的。

用算法哄騙數據中的價值的過程是一個具有挑戰性且通常很耗時的過程。雖然非技術AI項目的負責人和執行人員不需要知道如何清理數據,編寫Python或針對算法漂移進行調整,但是他們確實必須了解主題專家和數據科學家所經歷的實驗過程。數據中的價值。

上周,我們介紹了AI部署三個階段,而本周,我們將更深入地探討數據科學生命周期本身的七個步驟,以及非技術項目負責人應理解的過程方面。我們將用於探索數據科學生命周期的模型(如下所示)直接受到IBM數據挖掘的跨行業標準流程(或CRISP-DM)模型的啟發。我們的模型僅稍有不同-通過較少強調技術細微差別而更多強調業務背景。在本文的其餘部分,我們將參考下圖中概述的步驟:

7個步驟
資料來源:《 AI部署路線圖》

與部署的三個階段(試點,孵化,部署)中的線性階段不同,數據科學生命周期步驟循環得相當快,為了從模型中迭代或朝着一個新的階段邁進,通常會從一個步驟跳到下一個步驟。成功的結果。步驟1和2(業務理解和數據理解)以及步驟4和5(數據準備和建模)通常同時發生,因此甚至沒有線性列出。 

數據科學生命周期中的步驟可以按順序進行考慮,但是在實際部署中並不總是嚴格遵循粗略的順序。

例如,在準備數據的過程中,團隊可能決定「落後」於業務理解,以便滿足額外的預算需求(即,數據需要密集且及時的清理工作,並且需要更多的人員),或者為了澄清業務成果。同樣,在評估步驟中,團隊可能會在真正部署解決方案之前返回到數據理解或評估項目計劃。

與部署的三個階段一樣,我們將通過使用兩個示例公司來說明下面的階段:

示例1 –一家採用產品推薦引擎的電子商務公司。這家電子商務公司看到了改善購物車價值和改善現場用戶體驗的希望,特別是對於具有購買和活動歷史的現有客戶而言。

示例2 –採用預測分析應用程序的製造公司。這家製造公司擁有強大的數字基礎架構,旨在利用其現有的數據流在製造過程中發現故障和錯誤之前將其檢測出來。

1.業務理解

  • 目標–確定項目的業務目標,以及為實現該目標分配的資源。問:「我們追求的結果是什麼?」 問:「 AI真的是完成工作的正確工具嗎?」 問:「這個潛在的AI計劃的可測量和戰略價值是什麼?」
  • 挑戰–尋找合理的機會並為公司提供可訪問的機會。不要過度假設AI可以做什麼。接受公司必須具備的漫長的迭代時間以及關鍵的技能和能力,才能將AI融入企業中。
  • 可能涉案人– 
    • 高層領導
    • 首席數據科學家
    • 專案經理
    • 功能主題專家

示例1 –一家採用產品推薦引擎的電子商務公司。討論公司為實現增長和盈利而擁有的各種選擇–與其他選擇相比,推薦引擎是否優先?對於此類營銷項目,應如何理解我們的客戶及其購買行為?

示例2 –採用預測分析應用程序的製造公司。確定如何測量預測模型。想一想哪種機器需要這種預測性維護-哪些風險和故障對公司來說承受的代價是最昂貴的,我們可以首先關注那些風險和崩潰嗎?

2.數據理解

  • 目標–確定數據的可訪問性和潛在價值。問:「我們可以用現有的數據資產實現我們的業務目標嗎?」 問:「這些數據是否存在挑戰,或者有機會以新的方式使用這些數據來實現我們期望的業務成果?」
  • 挑戰–獲取數據的價值,讓主題專家和數據科學家一起查看數據,以確定應如何訪問數據,應如何改進數據以及哪些功能可能對業務成果具有最高價值。
  • 可能涉案人– 

示例1 –一家採用產品推薦引擎的電子商務公司。評估客戶購買行為的質量。這些數據是否說明了一個連貫的故事?我們是否有信心一個客戶帳戶是一個人,還是有多個家庭成員(不同的年齡,優先級,性別,偏好)在一個帳戶上購物,這使事情變得更加複雜?

示例2 –採用預測分析應用程序的製造公司。查看來自製造設備的現有數據源。來自相似機器的時間序列和遙測數據是否以相似的方式存儲並以相同的方式存儲?我們可以確保數據可靠嗎?它在哪裡最不可靠,我們可以通過這種方式減少影響數據的因素嗎?

3.評估項目需求

  • 目標–確定要求和資源,以繼續進行該項目。這可能包括額外的預算,針對員工的額外培訓,加入跨職能項目團隊的其他主題專家,或者訪問新的數據系統。
  • 挑戰–讓高層領導承受現實AI項目不可避免的複雜和不斷變化的需求(尤其是對於那些缺乏以前的實際數據科學經驗的公司)。 
  • 可能涉案人– 
    • 高層領導
    • 首席數據科學家
    • 專案經理
    • 功能主題專家

示例1 –一家採用產品推薦引擎的電子商務公司。分配給項目的跨職能團隊可能會決定他們需要訪問更多歷史數據以及清理和組織資源的資源。他們還可以確定-鑒於業務不同部門的ROI機會-他們將希望將推薦引擎應用於兩個非常具體的產品類別(而不是歸檔中的所有產品),並且團隊可能會要求訪問專用的業務那部分的主題專家。

示例2 –採用預測分析應用程序的製造公司。團隊確定他們計劃在各種設備上安裝的傳感器的數量和類型,以及為正確設置,解釋和理解這些新數據流以成功運行所需的特定主題專家。 PoC。

4.數據準備

  • 目標–訪問,清理和協調數據。特徵工程,用於確定和提取數據語料庫中有意義的方面。根據可用數據確定項目的可行性。
  • 挑戰–數據科學家與業務領導者坦率地談到了組織數據的挑戰和成本,這些挑戰和成本通常是巨大的(尤其是在較老的公司中,或者在實踐中很少或沒有實踐數據科學經驗的公司中)。承認如果​​數據量或質量無法使用,則該項目不可行或不可行。
  • 可能涉案人– 
    • 高層領導
    • 首席數據科學家
    • 數據科學團隊
    • 功能主題專家

示例1 –一家採用產品推薦引擎的電子商務公司。該團隊將清理和統一歷史數據,並確定新數據需要採用的特定格式,以幫助提供建議引擎。數據科學家和主題專家共同努力,確定購買和用戶行為數據中的功能,他們認為這對於最初訓練其模型最重要。

示例2 –採用預測分析應用程序的製造公司。數據科學團隊與工程師和機械師密切合作,以確定他們旨在放置傳感器的設備的最重要的遙測信號(熱量,振動)。然後,收集和分析初始數據集,並按時間序列與來自中央製造軟件的現有數據流進行組合。重新格式化或重組傳感器和核心系統數據,使其可以用於訓練模型。

5.造型

  • 目標–在輸入和輸出之間建立關係,對數據和算法進行迭代以達到業務價值。
  • 挑戰–在迭代過程中循環回到數據處理,數據理解和業務理解上。召集主題專家,為模型的假設和實踐培訓做出貢獻。
  • 可能涉案人– 
    • 首席數據科學家
    • 數據科學團隊
    • 功能主題專家
    • 專案經理

示例1 –一家採用產品推薦引擎的電子商務公司。牢記團隊決定的成功指標-數據科學團隊在關注的特定產品類別中測試新產品推薦。團隊成員以及(可能)來自一小群用戶都使用了反饋,以便針對改進的購物車價值和轉化率進行校準。使用數據中的新功能或在不同級別進行加權,以實現所需的結果。

示例2 –採用預測分析應用程序的製造公司。該團隊將使用過去的維修和故障數據以及新的遙測數據一起工作,以預測更可能發生故障的機器。為了找到更多需要維修的機器實例,這可能需要較長的時間範圍,或者需要使用相對大量的機器進行初始測試,因為只有這些事件才能幫助告知模型的預測能力。

6.評估

  • 目標–確定我們的數據資產和模型是否能夠交付所需的業務成果。這常常需要許多循環才能返回到步驟1、2、3、4或5 –因為駁斥了假設,並且出現了新的想法。
  • 挑戰–處理評估中的挑戰,確定衡量成功的強有力的,可量化的標準(基準難以確定)。讓高級領導和主題專家參與進行有力的評估,以確保部署有信心。
  • 可能涉案人
    • 高層領導
    • 首席數據科學家
    • 專案經理
    • 功能主題專家

示例1 –一家採用產品推薦引擎的電子商務公司。隨着時間的流逝,團隊將根據以前的產品列表或推薦方法來衡量他們的新產品推薦。在此評估階段,數據科學家和主題專家會共同確定似乎有效的方法,無效的方法以及如何調整推薦模型的模型,數據或用戶體驗,以更好地推動實現預期結果(更高的購物車價值,更高的用戶轉化為客戶的轉化率)。

示例2 –採用預測分析應用程序的製造公司。跨職能團隊評估了預測模型建議,確定它們是否比以前的方法明顯更好或更差。在概念驗證或孵化的早期階段,這可能是定性的(即,我們是否相信我們以前的方法會檢測到這種設備故障?),而在實際部署中,此度量將是定量的(即,多少?每月發生一次故障?每月X類機器發生多少正常運行時間損失?預測性維護系統的誤報率是多少?)。

7.部署

  • 目標–將AI模型或應用程序成功集成到現有業務流程中。最終,要交付業務成果。
  • 挑戰–培訓員工以利用新的AI應用程序。需要持續進行維護以保持模型正常運行並適應變化。
  • 可能涉案人– 
    • 首席數據科學家
    • 數據科學團隊
    • 專案經理

示例1 –一家採用產品推薦引擎的電子商務公司

  • 第2階段:孵化部署:推薦引擎已在沙盒環境中經過充分測試,並獲得內部團隊成員的反饋,已集成到電子商務網站的一部分中,並且有15%的用戶接觸到AI生成的推薦,而不是以前的建議。
  • 階段3:全面部署:推薦系統已集成到網站中,完全成為團隊認為可以帶來價值的所有Web界面上的默認體驗。建立了一個監視系統,以校準新系統的結果和發現,並定期進行會議和診斷,以確保該系統的運行和改進。

示例2 –採用預測分析應用程序的製造公司。 

  • 階段2:孵化部署:預測性維護系統已集成到生產車間工作流程的一部分中。現在,一小群機械師和工程師可以在AI團隊的指導下使用並響應這一新系統,其中一些人可能不屬於跨職能AI團隊。
  • 階段3:全面部署:預測性維護已集成到製造工作流程中,完全成為AI團隊認為可以交付價值的所有加工功能的默認流程(已在PoC和孵化階段進行過測試的區域)。建立了一個監視系統,以校準新系統的結果和發現,並定期進行會議和診斷,以確保該系統的運行和改進。