頭條資訊 - 為您提供最新最全的新聞資訊,每日實時更新

機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現

科技數碼 CSDN

作者 | Mihail Eric,機器學習科學家@亞馬遜Alexa AI。斯坦福大學計算機科學碩士,曾擔任斯坦福大學自然語言處理(NLP)研究助理。

譯者 | 彎月      責編 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

數據,無處不在,且在不斷增加。在過去 5~10 年間,數據科學吸引了越來越多的新人,人們紛紛前來品嚐這一禁果。

然而,如今的數據科學招聘市場的行情究竟如何呢?

為了各位忙碌的讀者能迅速掌握本文的要旨,我們通過如下兩句話來概括全文:

在各家公司公開招聘的數據科學職位中,70% 面向的是數據工程師。在培訓下一代數據與機器學習從業人員時,我們更加註重工程技能。

在從事面向數據專業人員的教育平臺的開發工作期間,我思考了很多有關數據驅動(機器學習與數據科學)職位的市場的發展情況。

我曾與數十名數據領域新晉的佼佼者交談過,其中不乏全球頂尖機構的學生,但我發現很多人未能真正理解哪些才是最重要的技術,他們並不清楚哪些技術能夠幫助自己從人群中脫穎而出,併為自己的職業生涯做好準備。

機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現

眾所周知,數據科學家主要負責以下各項工作:機器學習建模、可視化、數據的清理和處理(與 SQL 打交道)、工程以及生產部署

但你給新手推薦的學習課程都有哪些?

數據勝於雄辯。因此,我決定分析一下 2012 年以來 Y-Combinator 發佈的各家公司數據相關工作崗位的招聘信息。我研究的主要問題包括:

與數據相關的最常見的招聘崗位都有哪些?

我們討論的數據科學家的市場需求有多大?

數據革命之初使用的技術是否至今仍然很流行?

如果你想了解完整的細節與分析經過,請繼續閱讀下面的內容。

方法論

我選擇的分析對象是 Y-Combinator 孵化的一些公司,即聲稱要將某些數據工作作為其價值主張的一部分的公司。

為什麼只分析 Y-Combinator 的公司?因為他們提供的公司名錄(https://www.ycombinator.com/companies/)非常易於搜索(而且可以爬取)。

另外,作為一個頗有遠見的孵化器,十餘年以來他們為來自全球各個領域的公司提供了大量資金,我認為他們提供的市場樣本非常具有代表性,可供我分析。話雖如此,你應該對我所說的內容持保留態度,因為畢竟我沒有分析大型科技公司。

我抓取了 2012 年以來每家 Y-Combinator 公司的首頁 URL,拿到手的用於分析的公司大約有 1400 家。

為什麼沒有考慮 2012 年以前的數據?因為正是在這一年,AlexNet 贏得了 ImageNet 大賽,並掀起了機器學習與數據建模的熱浪,且這股熱浪一直延續至今。可以說,這個事件催生了最早的一批從事數據工作的公司。

以這批公司為基礎,我利用關鍵字進行了過濾,減少了需要處理的公司數量。具體來說,我只考慮了主頁至少包含下列詞語之一的公司:AI、CV、NLP、natural language processing(自然語言處理)、computer vision(計算機視覺)、artificial intelligence(人工智能)、machine(機器)、ML、data(數據)。另外,我忽略了那些網站鏈接無效的公司。

這一步處理會產生大量的假陽性(即包含上述詞語但實際上不從事數據工作的公司)嗎?肯定會!但是,我希望儘可能提高召回率,因為我知道我可以手動檢查各個網站的相關職位。

在過濾掉一些公司之後,我遍歷了每個網站,找到了他們的招聘廣告(通常在求職、工作或招聘頁面中),並記錄下了每個頭銜中包含data(數據)、machine learning(機器學習)、NLP 或 CV 的職位。最後,我得到了大約 70 個正在招聘數據相關職位的公司。

注意:我有可能漏掉了一些公司,因為有些網站上的招聘信息非常少。此外,有些公司沒有正式的招聘頁面,他們希望求職人員直接通過電子郵件與他們聯繫。

我忽略了上述兩種公司,所以他們不屬於此次分析的一部分。

另外:這項研究的大部分工作是在 2020 年底完成的。隨著各個公司主頁的定期更新,公開招聘的職位可能已發生變化。但是,我認為這不會嚴重影響最後的結論。

數據從業者的職責

在深入研究結果之前,我們先花點時間來澄清每個數據崗位常見的職責有哪些。我們將重點介紹以下四個職位,並簡要說明他們的工作內容:

數據科學家:使用各種統計與機器學習的技術來處理和分析數據。通常負責構建模型,調查可以從數據源中學習到哪些內容,儘管大多數模型都是原型,而非生產級別。

數據工程師:開發一套健壯且可擴展的數據處理工具/平臺。必須熟悉 SQL/NoSQL 數據庫,以及構建/維護 ETL 流水線。

機器學習(ML)工程師:通常需要同時負責模型的訓練與生產化。需要熟悉一些高級 ML 框架,此外還需要掌握構建可擴展的訓練技術,以及模型的推理與部署流水線。

機器學習(ML)科學家:主要從事最尖端的研究。一般負責探索可以在學術會議上發佈的新觀點。通常只需要將最新的模型製作成原型,然後移交給 ML 工程師,將其投入生產。

與數據相關的職位有多少?

如果我們將各個公司正在招聘的數據相關職位的頻率繪製成圖表,結果會怎樣?這個圖表大致如下:

機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現

最惹人注目的莫過於,數據工程師的招聘崗位遠遠多於傳統的數據科學家。在我們這個例子中,招聘數據工程師的公司的絕對數量要比招聘數據科學家的公司多大約 55%,而招聘機器學習工程師的公司數量與招聘數據科學家的公司大致相同。

我們可以做進一步的分析。看一看各個職位的頭銜,似乎有很多重複。

我們可以通過合併職位來粗略地分類。也就是說,找出描述大致相同的職位,然後將其合併到一個頭銜下。

這一步使用了以下等價關係:

NLP engineer ≈ CV engineer ≈ ML engineer ≈ Deep Learning engineer(NLP 工程師 ≈ CV 工程師  ≈ ML 工程師  ≈ 深度學習工程師。雖然領域可能不同,但職責大致相同)。

ML scientist ≈ Deep Learning researcher ≈ ML intern(ML 科學家 ≈ 深度學習研究員 ≈ ML 實習崗位。其中 ML 實習崗位的描述非常注重研究)。

Data engineer ≈ Data architect ≈ Head of data ≈ Data platform engineer(數據工程師 ≈ 數據架構 ≈ 數據總監 ≈ 數據平臺工程師)。

機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現

如果你不喜歡絕對數量的話,那麼可以看一看下面的百分比:

機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現

我可以將 ML research engineer(MLL 研究工程師)歸到 ML scientist(ML 科學家)或 ML engineer(ML 工程師)一欄,但是鑑於這是一個混合職位,所以我將其保留了下來。

總的來看,合併後的差異性更加顯著!開放的數據工程師職位比數據科學家多 70%;ML 工程師的職位也比數據科學家職位多 40%;此外,機器學習科學家的數量只有數據科學家的 30%。

重點總結

與其他數據專業人士相比,數據工程師的需求越來越高。從某種意義上說,這代表了更廣闊領域的發展。

大約在 5~8 年前機器學習剛剛興起的時候,各個公司都需要從事數據分類的工作人員。然而,隨著 Tensorflow 和 PyTorch 等框架的出現,深度學習和機器學習的技術開始走向大眾化。

這導致數據建模技能的需求增加。

如今,各個公司通過機器學習和建模洞悉產品的瓶頸集中在了數據的問題上。

如何標註數據?如何處理和清理數據?如何將數據從 A 移動到 B?如何快速完成這些日常工作?

所有這些工作都需要良好的工程技術。

雖然這些工作聽起來很無聊,而且很沒趣,但是側重於數據的傳統軟件工程可能才是我們目前真正需要的。

多年以來,我們一直很迷戀數據專家的工作,他們通過出色的演示和媒體炒作為原始數據注入了生命力。想想看,你最後一次在科技網站上看到有關ETL流水線的文章,是多久以前的事?

我認為,在數據科學的培訓與教育項目中,沒有什麼比數據工程得到的重視更少了。除了學習如何使用 linear_regression.fit() 之外,我們也應該學習如何編寫單元測試!

那麼,是否意味著你不應該學習數據科學?其實不然。

這只是意味著競爭會越來越激烈。市場上數據科學的職位會越來越少,不足以為所有新手提供這樣的機會。

但是,能夠有效分析數據,並從中提取可行見解的需求依然存在。只不過,這些人的技術必須過關。

只會從 Tensorflow 網站下載經過 Iris 數據集預訓練的模型,不足以勝任數據科學的工作。

然而,很明顯,市場上有大量的機器學習工程師職位,各個公司都需要混合型的數據人才:既能夠構建模型,也能夠部署模型。或者更直接地說,不僅能夠使用 Tensorflow,而且還能夠利用源代碼構建模型的人。

另外有一點需要注意,機器學習研究的職位也不是很多。

機器學習研究也被大肆宣傳,因為最尖端的技術都誕生於此,包括 AlphaGo、GPT-3 以及其他等等。

但是,對於許多公司來說,尤其是處於創業初期的公司,最尖端的新技術可能不是必需的。對於他們來說,把一個九成完美的模型擴展到上千名用戶可能更有價值。

我並不是說機器學習研究並不重要。絕對沒有這個意思。

但是,這類的職位可能大多出現在該行業的研究實驗室內,因為這些機構有能力承擔長時間的大量投資,而不像處於種子階段的創業公司,在 A 輪融資中就需要向投資者證明,他們的產品非常適合市場。

我認為,讓新手對數據領域建立合理且正確的期望,這一點無比重要。我們必須知道如今的數據科學已大不相同。我希望你能夠通過這篇文章,對該領域的當前狀況有所瞭解。只有瞭解自己身處何地,才能知道朝著何方前進。

THE  END

轉載請超鏈接註明:頭條資訊 » 機器學習被過度炒作?分析全球 1400 家數據公司有了這些發現
免責聲明
    :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。
加載中...