本文轉自公眾號 讀芯術,原文地址

如今,眾多機構在不停地尋找更加快速準確的數據準備方法來解決數據挑戰,實現機器學習(ML)。但是在將數據導入機器學習模型或任何其它分析項目之前,確保數據乾淨、一致且準確十分重要。因為當今許多分析都基於數據所屬語境,與數據展現出的內容最為接近的人才能夠更好的完成任務,也就是能夠將直覺、理論和商業知識應用於數據的商業領域專家。

不幸的是,商業用戶通常並沒有數據科學技能,跨過這個鴻溝有助於快速地從數據中獲取價值。因此,很多人都使用數據準備(DP)來幫助數據科學家和機器學習從業者快速準備和注釋他們的企業數據,拓展跨企業的數據價值。

數據收集與準備是如何成為可信的ML模型基礎的

為了創建一個成功的機器學習模型,公司必須有能力在將其投入生產前對其進行訓練、測試和驗證。數據準備技術正被用來創建現代機器學習所需的乾淨、帶注釋的基礎。然而歷史上,良好的DP所花費的時間比任何其它機器學習的過程還要多。

減少數據準備所需要的時間變得越來越重要,這樣能夠留下更多時間進行模型測試、調試和優化,創造更大的價值。同時為數據分析團隊和機器學習團隊準備數據能夠加速機器學習和數據科學項目,帶來身臨其境的商業消費體驗,通過以下六個關鍵步驟加速並自動化實現數據洞察。

第一步:數據收集

這是到現在為止最為基礎的一步,能夠處理一些共性的問題,包括:

· 自動確定儲存在.csv格式文件中的數據串的相關屬性。

· 解析高度嵌套的數據結構,例如將XML或JSON文件中的信息轉換為表格形式,方便掃描和模式檢測。

· 從外部儲存中搜索和識別相關數據。

但是,在考慮DP的解決方案時,要確保其能將多個文件組合成單個輸入。比如你有一組包含每日交易信息的文件,但是機器學習需要輸入一整年的數據。還要確保制定好針對數據集與機器學習模型中的取樣和偏好有關的問題應急處理方案。 

第二步:數據探索與分析

完成數據收集後,就需要評估數據狀態,包括查找趨勢、異常值、異常的、錯誤的、不一致的、缺失的或偏斜的信息。這很重要,因為源數據會反映出模型的所有結果,所以確保數據不包含隱藏的偏差十分重要。例如,如果你正在查找全國消費者的行為數據,但是只從一個有限的樣本中提取了數據,就有可能缺失了重要的地理區域。這時候就需要在整個數據集,而不僅僅是部分或樣本數據集中,找出所有可能導致模型結果出現錯誤偏差的因素。

第三步:調整並統一數據格式

大數據準備的下一步,就是確保數據的格式與機器學習模型相匹配。如果收集到的數據來自不同數據源,或者數據集被不止一位投資人手動修改過,那麼就可能需要檢查數據格式中的異常(例如USD5.50與$5.50)。用相同的方式標準化一列中的數值(例如:全拼或縮寫的州名)能夠確保數據正確匯總。一致的數據格式能夠避免這些錯誤,這樣整個數據集都會使用相同的輸入格式協議。

第四步:提高數據質量

在這一步,首先需要一個策略來處理數據中的錯誤數據、缺失值、極值和異常值。如果自助數據準備工具中含有內置的智能工具,可以幫助匹配不同資料庫中的數據屬性並智能整合,那麼則可以用它來幫忙。例如,如果在一個資料庫中含有兩列,「名」和「姓」,而另一個資料庫中含有一列「客戶」,它似乎包含了「姓」和「名」的組合,智能演算法就應當能夠確定一種匹配二者的方法,並將資料庫整合成單一的客戶視圖。

對於連續的變數,務必使用直方圖來檢查數據分布規律,減少偏差。務必檢查可接受值範圍外的記錄。這種異常值可能是一個輸入錯誤,也可能是一個可能反映未來事件的真實的、有含義的結果。重複或相似的值可能含有相同的信息,應當消除。類似的,在自動刪除所有包含缺失值的記錄前要小心謹慎,因為過多的刪除會使數據集產生偏差,導致不能反應現實情況。  

第五步:特徵工程

這一步包含了一門藝術與科學,即將原始數據轉化為特徵,使其能夠更好地將模式導入學習演算法。舉個例子,數據可以被分解為多個部分來抓住更加具體的關係,例如,按星期幾來分析銷售表現,而不僅是按月或年。在這種情況下,將星期幾從日期列表中單獨分開(例如「周一;2017.06.19)可能為演算法提供相關性更強的信息。

第六步:將數據拆分為訓練集和評估集

最後一步是將數據拆分為兩個數據集,一個用於演算法訓練,另一個用於評估。拆分訓練集和評估集時,務必選擇數據中非重疊的子集以確保測試正確。將原始數據與你所準備的數據輸入機器學習演算法時,購買提供版本管理和編目功能的工具,並理清兩種數據的關係。這樣,就可以依據預測結果追溯輸入數據,便於日後改善優化你的模型。

促進商業表現-如何用DP實現ML並解決數據問題

長久以來,數據準備已經被普遍認為能夠幫助商業領袖和分析師準備數據,以滿足分析、運營和管理需求。通過利用基於雲的環境中的眾多有價值的屬性,亞馬遜網路服務(AWS)與Azure提供的自助數據準備已經將其提升至了另一個水平。 

因此,藉助內置的智能演算法,最接近數據、最熟悉商業環境的商業用戶能夠快速準確地準備數據集。他們可以通過滑鼠點擊而非代碼,使用直觀的可視化應用程序訪問、檢索、塑造、協作和發布數據,同時提供完整的管理與安全性。IT專業人員可以跨企業和雲數據源,維持數據量和多樣性的規模,以滿足業務場景中及時的可重複的數據服務需求。

像DP一樣的解決方案解決了許多數據挑戰,實現了ML和數據科學工作流程,使用機器智能強化了應用。更重要的是,它讓他們能夠將數據傳輸給信息需求方,讓機構中所有的人、流程和系統都變得更加智能。