收集數據

主要是三個方面:

第一,我們會通過爬蟲去爬取相關的行業數據。

第二,我們的雲端產品產生的日誌數據,會直接收集到我們的數據平台里。

第三,客戶提供的素材,我們會把它轉化成數據和知識。

處理數據

非結構化數據:首先我們會對收集到數據進行數據清洗,然後再按照知識的分類通過機器+人工方式將其歸類,再通過一些手段(如規則等)做一些粗顆粒度的標註,之後由人工確認,確認完後入庫。

半結構化數據:客戶提供的原始帶格式文檔,通過格式規則分析或者機器學習模型等手段來進行分類或者聚類等輔助處理,然後再進行人工梳理,最後入庫。

機器做前期輔助,人工做最終的確認,而不是機器處理之後直接入庫。

小i有一個大的數據平台和一個標註系統,還有一個實驗室系統,共同運作來產生這些行業訓練數據以及行業背景知識,然後以領域語義庫的形式部署到實際系統中。