應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

給畢業(yè)生:你應(yīng)該選機器學(xué)習(xí)還是數(shù)據(jù)科學(xué)?

2020-08-13 13:44 AI前線

導(dǎo)讀:本文首先分析了數(shù)據(jù)科學(xué)行業(yè)的總體發(fā)展趨勢,然后深入地比較了機器學(xué)習(xí)領(lǐng)域中幾個不同名稱的職位的職能,對尋找數(shù)據(jù)科學(xué)和機器學(xué)習(xí)類工作的畢業(yè)生非常有指導(dǎo)意義。

隨著數(shù)據(jù)科學(xué)行業(yè)自 2013 年以來的爆炸式流行,該行業(yè)一直不斷地朝著更寬泛的方向發(fā)展,但同時也逐漸出現(xiàn)了更具體的職業(yè)角色分化。本文首先分析了數(shù)據(jù)科學(xué)行業(yè)的總體發(fā)展趨勢,然后深入地比較了機器學(xué)習(xí)領(lǐng)域中幾個不同名稱的職位的職能,對尋找數(shù)據(jù)科學(xué)和機器學(xué)習(xí)類工作的畢業(yè)生非常有指導(dǎo)意義。

大家好,我是杰森。我在硅谷工作,是一名數(shù)據(jù)科學(xué)家(關(guān)于這個名詞,我們將在本文后面進一步定義),我熱愛學(xué)習(xí)一切新事物!

引 言

說實話,這個話題在我腦海中已經(jīng)縈繞很久了。但因為平時實在有太多的事情要做,我無法擠出時間來完成這項艱巨的任務(wù)。但是,如今由于新冠疫情的居家隔離令,我被困斗室,最近也快沒啥事情能讓我打發(fā)時間了,我終于下定決心來完成這個話題的寫作。

隨著數(shù)據(jù)科學(xué)行業(yè)自 2013 年以來的爆炸式流行,該行業(yè)一直不斷地朝著更寬泛的方向發(fā)展,但同時也逐漸出現(xiàn)了更具體的職業(yè)角色分化。在該新興行業(yè)的演進過程中,不可避免地導(dǎo)致了有一些崗位在名稱和職能上出現(xiàn)了混淆和差異。例如,許多看似完全不同的職位但卻在實際工作中扮演著相同的角色,或者有名稱相同的職位卻在實際工作中承擔(dān)著不同的角色,這些職位頭銜可能包括:

數(shù)據(jù)分析科學(xué)家,機器學(xué)習(xí)數(shù)據(jù)科學(xué)家,數(shù)據(jù)科學(xué)工程師,數(shù)據(jù)分析師 / 科學(xué)家,機器學(xué)習(xí)工程師,應(yīng)用科學(xué)家,機器學(xué)習(xí)科學(xué)家……

這樣的例子簡直不勝枚舉。即使對我來說,通常招聘人員也會因為數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)(ML)專家、數(shù)據(jù)工程師等不同職位的招聘而與我聯(lián)系。顯然,整個行業(yè)對這些五花八門的職位都困惑不已。造成職位名稱差異如此之大的原因之一是,實際上各個公司對數(shù)據(jù)科學(xué)的需求和用途本身就大相徑庭。但無論背后原因是什么,如今數(shù)據(jù)科學(xué)領(lǐng)域似乎正在不斷進行分化和合并,并逐漸形成以下幾個主要工種類別:分析、軟件工程、數(shù)據(jù)工程以及研究。 不管那些看似相似的職位是怎么命名的,通常它們都能歸類落入這些類別。這種工種細(xì)化在那些財大氣粗的大型科技公司中表現(xiàn)得最為真實。

在本文中,我們將首先了解數(shù)據(jù)科學(xué)行業(yè)的總體趨勢,然后更深入地比較機器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家兩者的職能。我并不想在本文中去贅述一段漫長的發(fā)展歷史,而是選擇講述我作為一名數(shù)據(jù)科學(xué)家生活在硅谷的所聞所見。即使在 2017 那年,我寫過一篇文章“如何在還沒有獲得學(xué)位的情況下成為數(shù)據(jù)科學(xué)家”,現(xiàn)在和那時相比,我對數(shù)據(jù)科學(xué)的看法也發(fā)生了很大變化。

去年,我被邀請給 Metis 訓(xùn)練營 學(xué)習(xí)數(shù)據(jù)科學(xué)的學(xué)生們做一個簡短的演講,我當(dāng)時談到了這個話題。今天我想借用本文對這些職位的區(qū)別進行一番解釋,并幫助你找到最適合你的工作角色。也讓我們一起來看看,這個行業(yè)的發(fā)展是依然朝氣蓬勃,還是已經(jīng)日暮西山,因為預(yù)測發(fā)展趨勢原本就是數(shù)據(jù)科學(xué)家的本職工作,對嗎?(也可能不是吧)。無論如何,我衷心希望本文給你帶去有用的信息。

數(shù)據(jù)科學(xué)行業(yè)的發(fā)展趨勢

在我們深入挖掘信息之前,先看看我在 LinkedIn 上找到的兩份職位描述。我已遮去了它們的職位名稱,請讀讀下面的內(nèi)容,試著猜一下這些招聘廣告的原標(biāo)題是什么。我用紅色標(biāo)出了一些關(guān)鍵點:

去年我在 LinkedIn 上發(fā)現(xiàn)了這兩份職位描述。雖然有點過時了,但內(nèi)容仍然貼切(資料來源:LinkedIn 和 Facebook)。

這兩份職位描述相差甚遠(yuǎn),是吧?但可能會讓你大吃一驚的是,這兩份職位描述都是針對數(shù)據(jù)科學(xué)家這個崗位招聘的。左邊是 Facebook 的招聘廣告,而右邊是 Etsy 的。但在這里我并不想比較哪家的職位描述寫得更好。重點是看看它們在內(nèi)容上差異有多大。

以上職位描述的職位名稱。Facebook(左)和 Etsy(右)(資料來源:LinkedIn 和 Facebook)。

即使在工作中,人們也常常會因為如何定義數(shù)據(jù)科學(xué)家而展開熱議。我遇到過人們把數(shù)據(jù)科學(xué)家定義為 計算機科學(xué)專業(yè)的博士 或 新數(shù)據(jù)分析師。這其實是因為不同的公司對不同的職位都使用了數(shù)據(jù)科學(xué)家這樣一個相同的術(shù)語。然而,我相信經(jīng)過這么幾年發(fā)展,這個行業(yè)應(yīng)該有更細(xì)的分工以及更具體的職位定義,而不是把所有的東西都籠統(tǒng)地塞進數(shù)據(jù)科學(xué)這一廣泛范圍里。

那么,在數(shù)據(jù)科學(xué)家這個已經(jīng)被濫用的職位名稱下,實際上可能暗指哪些不同的具體崗位呢?在很大程度上,我認(rèn)為這個職位有可能指的是 軟件工程師、數(shù)據(jù)分析師、數(shù)據(jù)工程師和應(yīng)用 / 研究科學(xué)家。我知道有不少朋友頂著相同的數(shù)據(jù)科學(xué)家頭銜,但在實際工作中他們的角色是上述四者之一。請看看下面我創(chuàng)建的圖表。在數(shù)據(jù)科學(xué)發(fā)展的早期,一名數(shù)據(jù)科學(xué)家的工作內(nèi)容可能的確包含了這四個角色的職能。然而,如今的職位正變得越來越具體和細(xì)化,正如下圖所示。

數(shù)據(jù)科學(xué)家工作內(nèi)容發(fā)展趨勢(資料來源:本文作者)。

《哈佛商業(yè)評論》預(yù)見了這樣的發(fā)展嗎?

這種發(fā)展趨勢令人驚訝嗎?根據(jù) 2012 年《哈佛商業(yè)評論》(Harvard Business Review)雜志上那篇著名的文章《數(shù)據(jù)科學(xué)家:21 世紀(jì)最令人稱羨的工作》,這樣的發(fā)展趨勢也并不足以為奇:

數(shù)據(jù)科學(xué)家最基本、最通用的技能是編寫代碼的能力。但在五年后,這一點可能就會發(fā)生變化,因為會有更多的人會在他們的名片上印上“數(shù)據(jù)科學(xué)家”的頭銜。

正如這篇文章所描述的,如今作為一名數(shù)據(jù)科學(xué)家,你并不一定非要成為一名優(yōu)秀的程序員。那是因為,以前用來分析大數(shù)據(jù)的工具和方法并不是那么隨處可得且用戶友好。這就要求從前的數(shù)據(jù)科學(xué)家在擁有其他技能的同時還需要具備較強的工程技能。但是用于機器學(xué)習(xí)和數(shù)據(jù)科學(xué)的工具發(fā)展十分迅速,現(xiàn)在比以往任何時候都更容易獲取這些工具,因此你只需幾行代碼就可以訪問使用最先進技術(shù)(State of the art,SOTA)的模型。這使得以前的數(shù)據(jù)科學(xué)家角色如今更容易分拆成為分析師或工程師。現(xiàn)在,我們不必像以前那樣,需要全面掌握所有分析、工程和統(tǒng)計知識才能成為一名數(shù)據(jù)科學(xué)家。

例如,F(xiàn)acebook 就引領(lǐng)了這一趨勢的變化,讓過去的數(shù)據(jù)分析師的工作角色變成了數(shù)據(jù)科學(xué)家。這是一個自然的演進過程,因為隨著數(shù)據(jù)量的增加以及數(shù)據(jù)問題變得更具挑戰(zhàn)性,執(zhí)行良好的數(shù)據(jù)分析需要更多的專業(yè)技能和培訓(xùn)。不僅僅是 Facebook,像蘋果和 Airbnb 這樣的公司也已經(jīng)開始明確區(qū)分?jǐn)?shù)據(jù)分析師 / 產(chǎn)品數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)數(shù)據(jù)科學(xué)家這樣的角色崗位。

公司規(guī)模如何影響崗位的分化

值得一提的是,這樣的角色崗位細(xì)分更多發(fā)生在規(guī)模較大的科技公司。數(shù)據(jù)科學(xué)家這個角色和軟件工程師還是有很大差異的,固然各種大小規(guī)模的科技公司都需要軟件工程師,但并不是所有公司都需要專業(yè)的研究科學(xué)家或機器學(xué)習(xí)工程師。許多公司擁有幾名數(shù)據(jù)科學(xué)家可能就足以運轉(zhuǎn)業(yè)務(wù)了。所以在小公司里,可能仍然會有一些數(shù)據(jù)科學(xué)家同時扮演上述四個角色。

根據(jù)一般的經(jīng)驗而言,大公司(FANG 四巨頭:Facebook,Amazon,Netflix 和 Alphabet)的數(shù)據(jù)科學(xué)家職能通常類似于高級分析師,而小公司的數(shù)據(jù)科學(xué)家扮演的角色更類似于機器學(xué)習(xí)工程師。當(dāng)然這兩種職能對于公司來說都是重要和必需的。接下來,我將繼續(xù)沿用這里我的新定義,即下文每當(dāng)提及數(shù)據(jù)科學(xué)家時,意味著這是一個分析師角色。

數(shù)據(jù)科學(xué)家分化出的不同角色以及如何選擇

在下面的圖表中,我試圖展示一個與上面的圖表類似的圖,但對這四種功能增加了更詳細(xì)的描述。這些描述內(nèi)容可能并不算完美,但你可以把它們作為參考。

數(shù)據(jù)科學(xué)家職能的四大支柱(資料來源:本文作者)。

求職——應(yīng)該選擇哪個職位以及如何準(zhǔn)備面試?

如果你試圖進入這個領(lǐng)域,無論是當(dāng)一名機器學(xué)習(xí)工程師還是數(shù)據(jù)科學(xué)家,你可能首先想知道的是自己究竟應(yīng)該選擇哪一個崗位。請讓我列出四個與機器學(xué)習(xí)相關(guān)的主要崗位簡化的(但也是約定俗成的)描述,以幫助你弄清楚這些職位到底是干什么的。雖然我個人在工作中并沒有將所有這些職位都嘗試干過一遍,但我從工作在各個領(lǐng)域的朋友那里學(xué)到了很多有用的知識。我還在以下描述中的括號里提供了可能的面試內(nèi)容(假設(shè)是典型的四輪面試)。

數(shù)據(jù)科學(xué)家: 你想分析大數(shù)據(jù)、設(shè)計實驗和 A/B 測試、構(gòu)建簡單的機器學(xué)習(xí)和統(tǒng)計模型(例如使用 sklearn)來推動商業(yè)策略的運籌帷幄嗎?這個角色的工作不會特別結(jié)構(gòu)化,會包含較多的不確定性,你需要能夠獨當(dāng)一面地去主導(dǎo)項目的表述。(面試:1 輪概率 / 統(tǒng)計,1 輪 Leetcode 編程,1 輪 SQL,1 輪機器學(xué)習(xí)。)

2. 機器學(xué)習(xí)工程師: 你想在實際業(yè)務(wù)中構(gòu)建并部署最新的機器學(xué)習(xí)模型(例如 Tensorflow,,PyTorch)嗎?你工作的重點不僅是構(gòu)建模型,而且還需要編寫軟件以運行和支撐你的模型。在這個職位上,你更像是一個軟件工程師。(面試:3 輪 Leetcode 編程,1 輪機器學(xué)習(xí)。)

3. 研究科學(xué)家: 你有計算機科學(xué)專業(yè)的博士學(xué)位,并在 ICLR 國際會議上發(fā)表過幾篇機器學(xué)習(xí)相關(guān)的論文嗎?你是否致力于突破機器學(xué)習(xí)的研究前沿,當(dāng)你的論文被別人引用時會感到興奮不已嗎?能做到這些的人的確是鳳毛麟角,相信如果能做到這些,你已經(jīng)很明確自己想干什么樣的工作了。而這類人才中的大多數(shù)最終都進入了谷歌或者 Facebook。而且,即使沒有博士學(xué)位也可以進入這個行業(yè),但這樣的情況少之又少。(面試:1 輪 Leetcode 編程,3 輪機器學(xué)習(xí) / 研究。)

4. 應(yīng)用科學(xué)家: 你是機器學(xué)習(xí)工程師和研究科學(xué)家的混合體。所以這個角色不僅要關(guān)注編程,還需要去使用和推進最前沿(SOTA)的機器學(xué)習(xí)模型。(面試:2 輪 Leetcode 編程,2 輪機器學(xué)習(xí)。)

顯然,以上這些描述并不算面面俱到。但當(dāng)我和朋友聊起相關(guān)職位,看過很多工作描述后,我發(fā)現(xiàn)上述這些觀點還是普遍適用的。如果你對自己想要申請的職位還是有些不太確定,這里我還有一些建議可以幫助你進一步了解工作職位:

閱讀職位描述:說實話,職位頭銜并不重要。這些職位統(tǒng)統(tǒng)可能都被冠以相同的“數(shù)據(jù)科學(xué)家”字眼,但工作角色描述可能相去甚遠(yuǎn)。挖掘 LinkedIn:如果你不確定蘋果公司招聘的數(shù)據(jù)科學(xué)家是什么樣的角色,只要看看蘋果公司的數(shù)據(jù)科學(xué)家在 LinkedIn 上有什么樣的專業(yè)背景就可以了。他們是否大多都是計算機科學(xué)專業(yè)的博士?或者是本科生學(xué)歷?他們都接受過什么樣的專業(yè)培訓(xùn)?這些信息將有助于你了解更多。面試:如果你認(rèn)為你應(yīng)聘的職位是一個技術(shù)崗位,但在面試過程中卻沒有遇到任何編程技術(shù)面試,那你多半不會在此得到一個技術(shù)職位。通常你的面試內(nèi)容就反映了工作的性質(zhì)。

機器學(xué)習(xí)工程師 vs 數(shù)據(jù)科學(xué)家

好吧,已經(jīng)說得夠多了?,F(xiàn)在回到我們的話題上來。近年來,我開始聽到人們對數(shù)據(jù)科學(xué)工作的負(fù)面評價越來越多。造成這種情況的幾個原因是,越來越多冠以“數(shù)據(jù)科學(xué)家”的工作崗位貌似并不像從前一樣包含許多高端的機器學(xué)習(xí)成分,而且這樣的職位似乎比以前更容易獲得。也許五年前,大多數(shù)招聘崗位描述會要求至少有碩士學(xué)位才能應(yīng)聘數(shù)據(jù)科學(xué)家的工作,但現(xiàn)在情況已經(jīng)大不一樣了。不管人們?nèi)绾未y數(shù)據(jù)科學(xué)(至少在過去日子里)熱度已過的原因,請讓我們先來看一些實際數(shù)據(jù)。

下面的數(shù)據(jù)和圖表來自世界著名的薪資數(shù)據(jù)庫搜索引擎,Salary Ninja。它根據(jù) H1-B 數(shù)據(jù)庫中全美的外籍員工的信息進行搜索。你會看到 2014 年至 2019 年,職位名稱中含有“數(shù)據(jù)科學(xué)家”或“機器學(xué)習(xí)工程師”的職位的數(shù)量和平均工資。

比較數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師的工作機會變化趨勢(資料來源:本文作者)。

你對這一結(jié)果感到驚訝嗎?盡管這兩個職位的平均工資大致差不多,但你可以看到數(shù)據(jù)科學(xué)家的平均工資在 2015 年和 2016 年有所下降。大概這就是人們所說的,數(shù)據(jù)科學(xué)家的好日子一去不返了吧。但就純粹工作數(shù)量而言,數(shù)據(jù)科學(xué)還是遠(yuǎn)遠(yuǎn)大于機器學(xué)習(xí)工程,但你可以看到相比之下機器學(xué)習(xí)工程師工作數(shù)量的增長速度更快,且平均薪水也更高。

為了方便你閱讀,我在下面總結(jié)了從 Salary Ninja 收集的本文討論的幾個角色的統(tǒng)計數(shù)據(jù)。第一張表展示了過去六年的統(tǒng)計,又抽出其子集在第二張表里僅展示了 2019 年的最新數(shù)據(jù)統(tǒng)計。最后,我列出了微軟這一家公司六年以來的數(shù)據(jù)統(tǒng)計。

幾個與機器學(xué)習(xí)有關(guān)的職位的簡要統(tǒng)計(資料來源:本文作者)。

從以上數(shù)據(jù)中,我得出有趣的幾點見解:

總體而言,數(shù)據(jù)分析師的人數(shù)要多于數(shù)據(jù)科學(xué)家,但 2019 年情況卻出現(xiàn)了逆轉(zhuǎn)!這是否意味著數(shù)據(jù)分析師的職位正被很多公司重新冠名為數(shù)據(jù)科學(xué)家?機器學(xué)習(xí)工程師的薪水略高于數(shù)據(jù)科學(xué)家,但實際工作中機器學(xué)習(xí)工程師的職位數(shù)量要少得多。這是因為機器學(xué)習(xí)工程師的正式頭銜通常就是 軟件工程師。  而研究科學(xué)家的平均薪資水平低得令人驚訝。我發(fā)現(xiàn)這是因為該數(shù)據(jù)庫可能包括了許多其他類型的研究科學(xué)家,而不僅僅是那些在機器學(xué)習(xí)技術(shù)領(lǐng)域做研究的人員。這就是為什么我特意只選了一家科技公司列了第三張表格,以減少此類干擾。正如預(yù)期的那樣,在微軟公司里研究人員占據(jù)了最高薪酬的寶座。然而,我還是被數(shù)據(jù)工程師 130 萬美元的最高年薪震驚了。這簡直是太瘋狂了!也許你應(yīng)該考慮一下該職位。請記住,該數(shù)據(jù)集只包含底薪,而如今在科技界,股票也常常扮演著重要角色。此外,它也遠(yuǎn)沒有描繪出就業(yè)市場的全貌。然而,考慮到美國科技行業(yè)的外籍員工數(shù)量,這仍然算是提供了一個很好的參考指標(biāo)。

根據(jù)這些數(shù)據(jù),我認(rèn)為,也不能就武斷地說數(shù)據(jù)科學(xué)行業(yè)已經(jīng)走向蕭條。這個行業(yè)仍在增長,但今后可能會更加專注于分析方向。根據(jù)我的觀察,如今似乎有更多數(shù)據(jù)科學(xué)領(lǐng)域的工作崗位降低了準(zhǔn)入門檻,但這也并不算是一件壞事。

結(jié) 論

到這里,本文已經(jīng)講了很多,但我仍希望你能讀完最后這一部分。我寫這篇文章是因為,面對這個行業(yè)正在發(fā)生的所有變化,我自己也常常感到困惑。而且,人們似乎對什么是數(shù)據(jù)科學(xué)有太多五花八門的看法。無論誰對誰錯,我希望你能看到發(fā)展的趨勢,并自己做出決定。

最后,不要因為一個工作或行業(yè)的平均薪酬較高或熱度較高就輕易地對它做出選擇。你的頭銜是數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)工程師還是數(shù)據(jù)分析師,這些并不重要。如果有人說數(shù)據(jù)科學(xué)家其實就是工程師,或者就是分析師,這些也不重要,因為這兩種說法都可能是對的。

雖然很容易根據(jù)薪水高低來比較職位頭銜,但選擇一個你喜歡并且擅長的職位才是真正重要的事情。請專注于你所做的實際工作,并確保這份工作與自己契合。別因為平均工資看上去較低就產(chǎn)生錯誤的印象,這并不一定意味著你的實際工資會比別的工作低。正如你在前面表格中看到的,本文討論的所有職位它們的最高年薪都相當(dāng)?shù)馗摺?/p>

在我結(jié)束本文之前,還有一些其他的資源和更多的信息可以供你參考:

Airbnb 曾經(jīng)發(fā)過一篇文章“數(shù)據(jù)科學(xué),同一職稱多種職能”:我認(rèn)為 Airbnb 在組織數(shù)據(jù)科學(xué)相關(guān)的各種工種方面確實做得非常棒,這篇文章對此進行了詳細(xì)的解釋。他們并沒有給大家統(tǒng)一地冠以一個含義模糊的數(shù)據(jù)科學(xué)家頭銜,而是細(xì)分為三個不同的方向:分析、算法和推理。

文章地址:https://www.linkedin.com/pulse/one-data-science-job-doesnt-fit-all-elena-grewal/

Joma 在 YouTube 上發(fā)布的視頻 “一位數(shù)據(jù)科學(xué)家告訴你:到底什么是真正的數(shù)據(jù)科學(xué)?”:他很好地根據(jù)公司規(guī)模大小解釋了不同類型的數(shù)據(jù)科學(xué)家。通過這段視頻,你還能對在大型科技公司工作的分析數(shù)據(jù)科學(xué)家角色有更多了解。

視頻地址:https://www.youtube.com/watch?v=xC-c7E5PK0Y&feature=youtu.be&t=372

再次感謝你的閱讀。希望這篇文章能給你一些啟示,這樣你在研究數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的時候就不會感到迷茫。衷心祝愿你在這段艱難的日子里一切順利,并希望本文對你有所幫助。