當你想到完美的數據科學團隊時,你想像的是同一位計算機科學和統計學教授的10份副本嗎?我希望不是!

谷歌的Geoff Hinton是我的英雄,也是深度學習的一位了不起的研究員,但我希望你不打算讓他的應用數據科學團隊與他一起工作,而不是其他人!
谷歌的Geoff Hinton是我的英雄,也是深度學習的一位了不起的研究員,但我希望你不打算讓他的應用數據科學團隊與他一起工作,而不是其他人!

應用數據科學是一項高度跨學科的團隊運動。透視的多樣性很重要!事實上,觀點和態度至少與教育和經驗一樣重要。

如果您希望通過決策智能工程方法使數據變得有用,那麼這就是我對團隊發展的順序的看法。

#0數據工程師

當然,我們從零開始計數,因為在談論數據分析之前,您需要能夠獲取數據。如果您正在處理小型數據集,那麼數據工程實際上是在電子表格中輸入一些數字。當您以更令人印象深刻的規模運營時,數據工程本身就成為一門複雜的學科。您團隊中的某個人需要負責處理提供其他員工可以使用的數據的棘手工程方面。

#1決策者

在聘請經過博士培訓的數據科學家之前,請確保您擁有一位了解數據驅動決策的藝術和科學的決策者。

在團隊從數據中獲取價值之前,必須具備決策技能。

這個人負責確定值得用數據做出的決策,構建它們(從設計指標到根據統計假設做出決定),並根據對業務的潛在影響確定所需的分析嚴謹程度。尋找一位深思熟慮的人,他不會一直說,「哦,哎呦,我在思考這個決定時甚至沒有想到。」他們已經想到了。然後。那也是。

#2分析師

然後下一個僱員是…每個人都已經和你合作了。每個人都有資格查看數據並獲得靈感,唯一可能缺少的是對熟悉該工作的軟件的熟悉程度。如果您曾經看過數碼照片,那麼您已經完成了數據可視化和分析。

學習使用R和Python等工具只是對MS Paint進行數據可視化的升級; 它們只是用於查看更多種類數據集的多功能工具,而不僅僅是紅綠藍像素矩陣。

如果您曾經看過數碼照片,那麼您已經完成了數據可視化和分析。這是同一件事。

嘿,如果你有胃的話就是在電子表格中查看前五行數據,那麼,這仍然比沒有好。如果整個勞動力都有權這樣做,那麼你就可以更好地掌握業務脈搏,而不是沒有人在查看任何數據。

Nessie 1934:這是數據。明智地得出結論。
Nessie 1934:這是數據。明智地得出結論。

要記住的重要一點是,除了數據之外,你不應該得出結論。這需要專業培訓。就像上面的照片一樣,這裡有你可以說的全部內容:「 這就是我的數據集中的內容。「請不要使用它得出的結論是尼斯湖水怪是真實的。

#3專家分析師

進入閃電般的版本!此人可以更快地查看更多數據。這裡的遊戲是速度,探索,發現……有趣!(分析的另一個術語是數據挖掘。)這不是關注嚴謹和謹慎結論的角色。相反,這是幫助您的團隊儘可能多地關注您的數據的人,以便您的決策者可以更加謹慎地了解值得追求的東西。

這裡的工作是速度,儘快遇到潛在的見解。

這可能違反直覺,但不要與最可靠的工程師合作,他們編寫華麗,強大的代碼。這裡的工作是速度,儘可能快地遇到潛在的見解,不幸的是,那些對代碼質量過高的人可能會發現很難快速縮放數據以便在這個角色中發揮作用。

那些着迷於代碼質量的人可能會發現很難在這個角色中發揮作用。

我看到有關工程導向團隊的分析師被欺負,因為他們的同行沒有意識到「優秀代碼」對於描述性分析意味着什麼。偉大的是「快速和謙虛」在這裡。如果快速但邋 – 的程序員沒有得到太多的愛,他們就會離開你的公司,你會想知道為什麼你沒有掌握你的業務脈搏。

#4統計學家

現在我們已經讓所有這些人高興地探索數據,我們最好讓周圍的對餵食狂潮施加阻礙。看看Nessie的 「照片」是安全的,只要你有紀律讓自己遠離實際存在的東西……但你呢?雖然人們非常善於合理地思考照片,但其他數據類型似乎在窗外傳遞常識。讓周圍的人阻止團隊做出無根據的結論可能是一個好主意。

靈感很便宜,但嚴謹是昂貴的。

Lifehack: 不要做出結論,你也不必擔心。我只是半開玩笑。靈感很便宜,但嚴謹是昂貴的。用純粹的靈感來支付或滿足自己。

統計學家幫助決策者在數據之外安全地得出結論。

例如,如果您的機器學習系統在一個數據集中工作,那麼您可以安全地得出結論,它在數據集中起作用。它在生產中運行時會起作用嗎?你應該推出嗎?你需要一些額外的技能來處理這些問題。統計技能。

如果我們想要在沒有完美事實的情況下做出認真的決定,那麼讓我們放慢腳步並採取謹慎的態度。統計學家幫助決策者在分析的數據之外安全地得出結論。

#5應用機器學習工程師

應用的AI / 機器學習工程師的最佳屬性不是對算法如何工作的理解。他們的工作是使用它們,而不是構建它們。(這就是研究人員所做的。)專業的爭論代碼可以讓現有算法接受並通過您的數據集流失,這正是您所尋求的。

除了快速編碼手指外,還要尋找能夠應對失敗的個性。你幾乎永遠不會知道你在做什麼,即使你認為你做了。您可以通過一堆算法儘快運行數據,看看它是否正常工作……合理的期望您在成功之前會失敗很多。這項工作的很大一部分是盲目地涉足,並且需要一定的個性來享受這一點。

完美主義者傾向於作為ML工程師而鬥爭。

因為您的業務問題不在教科書中,所以您無法事先知道什麼會起作用,所以您不能指望在第一時間獲得完美的結果。沒關係,儘可能快地嘗試很多方法并迭代解決方案。

說到「通過算法運行數據」……什麼數據?當然,分析師認為這些輸入可能很有意思。這就是分析師作為早期僱員有意義的原因。

雖然有很多修修補補,但機器學習工程師必須深入尊重嚴謹至關重要的過程部分:評估。該解決方案是否真的適用於新數據?幸運的是,你在以前的僱傭中做出了明智的選擇,所以你所要做的就是將接力棒傳遞給統計學家。

最強大的應用ML工程師非常清楚應用各種方法需要多長時間。

當一個潛在的ML僱員可以在各種數據集上嘗試它們的時候對選項進行排名,給人留下深刻的印象。

當一個潛在的ML雇員可以在各種數據集上嘗試它們的時候對選項進行排名,給人留下深刻的印象。

#6數據科學家

我使用這個詞的方式,數據科學家是在前三個角色中都是完全專家的人。不是每個人都使用我的定義:你會看到那裡的工作應用程序,人們稱自己為「數據科學家」,當他們真正掌握了三者之一時,所以值得檢查。

數據科學家是以前三個職位中的全部專家。

這個角色位於第6位,因為僱用真正的三合一是一個昂貴的選擇。如果您可以在預算範圍內僱用一個,這是一個好主意,但如果您的預算緊張,請考慮提升並培養現有的單一角色專家。

#7分析經理/數據科學負責人

分析經理是產生金蛋的鵝:它們是數據科學家和決策者之間的混合體。他們在團隊中的存在充當了力量倍增器,確保您的數據科學團隊不會在雜草中脫離,而不是為您的業務增加價值。

決策者+數據科學家混合體是一種力量倍增器。不幸的是,它們很少見,很難僱用。

這個人在晚上保持清醒,問題是「 我們如何設計正確的問題?我們如何做出決定?我們如何最好地分配我們的專家?什麼值得做?技能和數據是否符合要求?我們如何確保良好的輸入數據?

如果你有幸僱用其中的一個,請堅持下去,永遠不要讓他們離開。在此處詳細了解此角色。

#8定性專家​​/社會科學家

有時候你的決策者是一個出色的領導者,經理,激勵者,影響者或組織政治的導航者……但是在決策的藝術和科學方面並不熟練。決策不僅僅是一種人才。如果你的決策者沒有磨練他們的手藝,他們可能會造成更大的傷害。

您可以使用定性專家來增強他們,而不是解僱一個不熟練的決策者。

不要解僱一個不熟練的決策者,加強他們。您可以以幫助者的形式僱用他們升級。定性專家在這裡補充他們的技能。

這個人通常具有社會科學和數據背景 –  行為經濟學家,神經經濟學家和JDM心理學家接受最專業的培訓,但自學成才的人也可以擅長。這項工作是幫助決策者澄清想法,檢查所有角度,並將模稜兩可的直覺轉化為語言中經過

深思熟慮的指令,以便團隊的其他成員輕鬆執行。我們沒有意識到社會科學家是多麼有價值。他們通常比數據科學家更有能力將決策者的直覺和意圖轉化為具體的指標。

定性專家不會打電話給任何一個鏡頭。相反,他們確保決策者已經完全掌握了可用於呼叫的鏡頭。他們也是值得信賴的顧問,頭腦風暴的伴侶,以及決策者的聲音板。讓他們參與是確保項目開始朝着正確方向發展的好方法。

#9研究員

許多招聘經理認為他們的第一個團隊成員需要成為前教授,但實際上你並不需要那些博士學位,除非你已經知道該行業不會提供你需要的算法。大多數團隊都不會提前知道,所以按照正確的順序做事更有意義:在建立自己的太空筆之前,先檢查一支鉛筆是否能完成工作。首先開始,如果您發現現有的解決方案沒有給您太多的愛,那麼您應該考慮聘請研究人員。

如果研究人員是您的第一個僱員,您可能沒有合適的環境來充分利用它們。

不要把它們直接帶上蝙蝠。最好等到你的團隊發展到足以弄明白他們需要研究人員的時候。等到你已經用盡了所有可用的工具,然後再僱用某人來建造昂貴的新工具。

在您發明在太空中工作的筆之前,請檢查現有解決方案是否已滿足您的需求。
在您發明在太空中工作的筆之前,請檢查現有解決方案是否已滿足您的需求。

#10 +其他人員

除了我們看到的角色,這裡有一些我最喜歡的人歡迎參與決策情報項目:

  • 領域專家
  • 倫理學家
  • 軟件工程師
  • 可靠性工程師
  • UX設計師
  • 交互式可視化/圖形設計師
  • 數據收集專家
  • 數據產品經理
  • 項目/項目經理

許多項目離不開它們 – 他們未列入我的前10名的唯一原因是決策智能不是他們的主要業務。相反,他們是自己學科的天才,並且已經對數據和決策有足夠的了解,對您的項目非常有用。可以把他們想像成擁有自己的專業或專業,但他們對決策智能充滿熱愛,他們選擇對其進行微調。

龐大的團隊還是小團隊?

閱讀完所有內容後,您可能會感到不堪重負。這麼多角色!深吸一口氣。根據您的需要,您可以從前幾個角色中獲得足夠的價值。

重溫我將應用機器學習作為廚房創新的比喻,如果您個人想要開設一家製作創新比薩餅的工業規模比薩餅店,您需要大團隊或需要與供應商/顧問合作。如果你想在這個周末製作一個或兩個獨特的披薩 – 焦糖鳳尾魚驚喜,任何人? – 那麼你仍然需要考慮我們提到的所有組件。你要決定做什麼(角色1),使用哪些成分(角色2和3),在哪裡獲得成分(角色0),如何定製食譜(角色5),以及如何給它一個品味測試(角色4)在為想要給人留下深刻印象的人服務之前,但對於不那麼重要的隨意版本,你可以自己完成所有這些工作。如果你的目標只是製作標準的傳統披薩,你甚至不需要這一切:抓住別人經過試驗和測試的配方(不需要重新發明自己的配方)和配料,開始做飯!