我曾與12家創業公司合作。他們涵蓋了從金融科技和醫療保健到教育技術和生物技術的各個垂直領域,從種子期到收購後不等。我的職責也各不相同,從雜亂無章的第一員工到數據科學主管和戰略顧問。在所有這些中,我都致力於有趣的機器學習和數據科學問題。所有人都試圖製造出優質的產品。許多人都成功了。

這是我學到的。

這是關於構建產品,而不是關於AI

作為一名持卡數學家,我最初受到機器學習科學以及提出創新的新演算法和方法的挑戰的最大動力。

但是我很快意識到,即使是最精確的機器學習模型也無法獨自創造價值。 機器學習和AI的價值在於 根據其提供的產品來衡量。 弄清楚如何有效地做到這一點,是構建ML驅動產品的真正目的。

愛麗絲夢遊仙境》的作者劉易斯·卡羅爾(Lewis Carroll)也是一位數學家。他發明了許多誘人的產品,儘管其中一些並沒有按預期工作。所有插圖均由John Tenniel提供。
愛麗絲夢遊仙境》的作者劉易斯·卡羅爾(Lewis Carroll)也是一位數學家。他發明了許多誘人的產品,儘管其中一些並沒有按預期工作。所有插圖均由John Tenniel提供。

這是關於問題的,而不是關於方法的

如果目標是製造產品,那麼機器學習和AI就是達到目的的手段。重要的是他們如何很好地解決您的產品問題,而不是您使用的是哪種方法。在大多數情況下,快速而骯髒的解決方案會讓您步入正軌。當簡單的回歸就可以了時,不要訓練深度神經網路。

當您專註於問題時,有時您可能會發現機器學習不是解決問題的正確工具。事實證明,許多問題主要與過程有關。即使在這種情況下,數據科學家自然也會傾向於採用嚴格的,數據驅動的方法,因此它們可以貢獻很多價值。但這並不能使使用AI修復不良流程成為一個好主意。修復該過程。

尋找數據和產品之間的協同作用

機器學習的真正價值很少來自採用現有產品並將其與機器學習模型的預測相結合。當然,這將增加一些增量值。但是在功能強大的AI產品中,機器學習不僅僅是一個附加組件。它是價值創造的引擎,產品的構建考慮了引擎:產品和數據必須協同運行。

如果做得好,這將導致一個強大的良性循環,我稱之為「 產品/數據擬合 」:產品有效地實現了數據的潛在價值,同時繼續生成必要的數據以進一步改善產品。

將機器學習引入產品的次優策略
將機器學習引入產品的次優策略

尤其是,AI不能僅僅停留在數據科學和工程團隊中。從產品到執行人員,組織的其他部門都需要參與對話,以加快價值創造過程。這需要大量的教育和投入,甚至超出工程師通常習慣於從構建軟體(甚至在初創公司)中所不具備的能力。

數據先行,人工智慧先行

機器學習和AI需要大量數據,更重要的是,高質量數據。如果要從頭開始構建產品,請考慮從第一天開始收集數據。如果要在現有產品中引入AI技術,則在進入AI部分之前,準備在數據工程和重新架構上投入大量資金。

這並不意味著您必須在實現任何價值之前先完成所有工作。更好的數據運營意味著更好的分析,這對於任何組織學習和改進都是至關重要的。利用這些勝利來展示價值併產生組織認同。而且,當您的分析工作如虎添翼時,您就可以開始考慮真正的機器學習了。

投資於有效的溝通

打造出色的產品需要出色的產品經理和高管的支持。儘管許多人被AI和深度學習的力量所吸引,但很少有非技術人員真正了解這些技術。對機器學習和AI的有效討論需要對統計數據有充分的了解,從而造成溝通鴻溝,這常常導致不切實際的期望

關於機器學習和AI的討論,顯然不完全基於業務指標
關於機器學習和AI的討論,顯然不完全基於業務指標

一個關鍵要素是保持有關業務指標及其如何轉化為建模指標的持續對話。這給產品經理帶來了很多責任,但數據科學家也要承擔同樣的責任,他們必須發展領域專業知識並深刻理解業務考慮因素才能真正發揮作用。

快速而骯髒實際上並不那麼骯髒

正如我上面提到的,快速而骯髒的方法將使您受益匪淺。部分原因是因為今天的快速和骯髒是昨天的緩慢和精確。諸如word2vec之類的工具已變得幾乎像回歸一樣易於使用,並且不斷推出功能強大的新工具。對於任何數據科學家來說,對各種構建模塊及其之間的粘合的深刻理解都是至關重要的。

開源工具爆炸式增長的結果是,在大多數情況下,開發專有的ML平台不是一個好主意。當然,您應該擁有專有的演算法,這些演算法採用眾所周知的構建基塊,並使它們適應您的問題和您的領域。但是,將深度學習研究留給Google的人們-專註於業務問題,還記得嗎?

如有疑問,請顯示數據

向用戶顯示數據可能非常強大,但是並非所有的演示方法都具有同樣的吸引力
向用戶顯示數據可能非常強大,但是並非所有的演示方法都具有同樣的吸引力

早期產品開發中最重要的活動是獲得市場反饋。但是機器學習需要大量數據,並且需要很長時間才能獲取。這帶來了一個問題:您如何在沒有大量數據的情況下獲得有關數據產品的市場洞察力?

最好的解決方案通常是簡單地向用戶顯示數據。人類一次只能處理少量數據,因此如果您沒有太多數據也沒關係。您的用戶如何處理您顯示給他們的數據?他們在哪裡掩飾,他們想在哪裡深入挖掘?公開以前無法訪問的信息可能會非常有用,並且可以為您提供有關數據潛在業務價值的強大指導。

建立信任

信任是大多數技術成功的主要因素。最終,每一項技術都為人類所使用,必須得到人類的信任。在機器學習應用程序的背景下,其中一些人可能會擔心他們的工作被自動化。其他人則依靠您的技術提供的信息來做出重要的決定。

諸如此類的AI產品(例如通過嘗試人類做出決策而不是賦予人類決策能力)會加劇這些擔憂,這將導致信任度快速下降。

信任容易丟失而難以恢復。打造人們信任的產品。

本文轉自towardsdatascience,原文地址