導讀:不同的前進方向,永遠是時代浪潮中企業(yè)發(fā)展的常態(tài)。決定于此的,是基于當下市場的需求。
圖片來自“Unsplash”
“就企業(yè)來說,只是對于業(yè)務模式的選擇不同而已,我們更看好現(xiàn)在這個精細化、場景化的方向?!?/p>
“就像一個大網(wǎng)吧?!毙煦懜嬖V我們。
他說的是位于河南郟縣的某數(shù)據(jù)中心的辦公室。在這里,幾十排機器連在一起,伴隨著機箱轟轟的散熱聲,人們正在進行著夏收之后的另外一項工作。
隨后,這些人被輪流帶進了臨時搭的攝影棚里——一個光線昏暗、不到30平米的小房間,墻壁不久前剛被刷得雪白,里面擺著椅子、三腳架和燈光器材。
在相關人員的指引下,人們擺出不同的表情面向攝影機,每“咔”的一聲都意味著他們能獲得一個禮品或者金錢報酬。
除此之外,在不遠處幾臺大風扇下,還有一些人在不斷地用鼠標進行框選,標注?!肮ぷ餍U簡單的,就是從這一堆圖像里把汽車框出來?!睆埬日f。不只是她,幾十臺臺式電腦前還有不少像她一樣的人,不大的房間里遍布著鼠標點擊的“噠噠”聲,機械且雜亂。
拉框、辨識、數(shù)據(jù)采集……在這里,人工智能展露出了它最原始和最脆弱的一面,和那些動輒晦澀難懂的“自動駕駛、語音交互、語義識別……”詞匯相比,這里的人工智能更為人性化,也更為平凡和普通。
這只是一個縮影。在星羅棋布的三四線城市里,有無數(shù)人從事著這項工作,盡管大部分人對“數(shù)據(jù)”這個概念模棱兩可,但在他們看來,“人工智能一定能顛覆未來?!?/p>
這里是人工智能的起點,更是人工智能的最底層基座。
無數(shù)據(jù),不AI
一個明顯的信號是,人工智能正距離我們越來越近。
先來看一組數(shù)字,2018年,全球人工智能市場突破2700億元,其中中國超過360億元,相比2015年的203億元復合增長率為21%。飛速上揚的曲線背后是科技發(fā)展的日新月異,于互聯(lián)網(wǎng)下半場,AI已經(jīng)成為很多公司、企業(yè)面向未來的武器和底氣。
與之對應的是另外一組數(shù)字,據(jù)We Are Social公司統(tǒng)計,全球獨立移動設備用戶滲透率超過了總人口的65%,活躍互聯(lián)網(wǎng)用戶突破了40億人,接入互聯(lián)網(wǎng)的活躍移動設備超過了50億臺。根據(jù)IDC預測,2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量。
這是一組每天都處于千萬億次增長的數(shù)據(jù)曲線。
人工智能,算法是發(fā)動機,數(shù)據(jù)是燃料。對于大部分公司的AI業(yè)務來說,獲取海量而優(yōu)質(zhì)的標注數(shù)據(jù)是進行人工智能的先決條件。算法模型是計算機基于大規(guī)模的訓練數(shù)據(jù)集,歸納出的識別邏輯,以實現(xiàn)精準的物體和場景識別??梢哉f,實現(xiàn)機器精準識別的重要一步,就是獲取海量而優(yōu)質(zhì)的標注數(shù)據(jù)。
“人工智能的背后是有數(shù)據(jù)、算法和算力來支撐,它其實是一種相互促進,并且也相互制約的關系。沒有數(shù)據(jù),再多的算力和模型上的投入,也不能讓AI實現(xiàn)落地。”云測數(shù)據(jù)總經(jīng)理賈宇航表示。
誠然如此。人工智能更可以看成是一項龐大的建筑工程,算法為建筑框架,算力為構筑手段,而數(shù)據(jù)則是最為重要的建筑原料。
這更像是一種唇齒相依的關系,你中有我,我中有你。
但事實卻是,算力和算法更多的被人們提及,處于資本和媒體的曝光燈下,但數(shù)據(jù)卻保持著“悄然無聲”的態(tài)勢。
“但在現(xiàn)階段工業(yè)界的AI應用研發(fā),標數(shù)據(jù)是一定跳不過去的,可能10年之內(nèi)都要依賴于標數(shù)據(jù)?!币粋€業(yè)內(nèi)人士告訴產(chǎn)業(yè)家。
就當下而言,從最基本的構建模式來看,數(shù)據(jù)是人工智能的原料;但如果將數(shù)據(jù)與人工智能技術的整體發(fā)展相比,如今數(shù)據(jù)的采集和標注方式卻是后者發(fā)展的“木桶短板”。
可以預測,“無數(shù)據(jù),不AI”將會一直是常態(tài)。
數(shù)字的新「邊界」
不能否認的是,這門生意正在進步。
從粗放型到如今的精細化運作,數(shù)據(jù)的生意模式正在不斷升級。身處這個賽道的玩家們,則是給它做了最佳注腳。
先看百度,據(jù)了解,其實早在2011年百度數(shù)據(jù)眾包就以部門的形式成立,不僅為百度內(nèi)部需求方如百度NLP、百度地圖等提供AI數(shù)據(jù)采集和標注服務,同樣將數(shù)據(jù)眾包業(yè)務進行開放,根據(jù)客戶需求制定數(shù)據(jù)采集方案,量體裁衣,和傳統(tǒng)的互聯(lián)網(wǎng)數(shù)據(jù)訓練相比更為細分,同時也更為專業(yè)。
處于同一身位還有云測數(shù)據(jù)。起家應用測試業(yè)務的云測數(shù)據(jù)本身就與數(shù)據(jù)采集有著渾然天成的親和度。據(jù)了解,云測數(shù)據(jù)有自建的數(shù)據(jù)標注基地以及定制化場景實驗室,可以根據(jù)客戶需求提供更為定制化的場景數(shù)據(jù)采集服務。
除此之外,大洋彼岸的亞馬遜平臺的Amazon Mechanical Turk同樣值得一提,在亞馬遜品牌的加持下,它靠為訓練人工智能提供AI數(shù)據(jù)眾包服務起家,但主要經(jīng)營業(yè)務還是眾包型業(yè)務,在精細化場景方面略遜一籌。
可以理解為,云測數(shù)據(jù)和百度眾包平臺更可以看成是Amazon Mechanical Turk升級版,他們更精細,更趨向場景,同時也更加垂直。
數(shù)據(jù)采集的模式正在升級。一方面這和愈發(fā)加速的AI步伐相關,但更重要的是數(shù)據(jù)采集的賽道開始呈現(xiàn)出更為清晰的邊界和梯度。
隱藏在新邊界背后的是AI行業(yè)發(fā)展的良莠不齊,在這樣一個良幣驅(qū)逐劣幣的賽道上,數(shù)據(jù)的生意邊界被無限放大,卻又無限縮小。
放大的是基于技術的橫向場景化發(fā)展,企業(yè)有能力、也有信心來進行更多有難度的數(shù)據(jù)采集工作;縮小的是這個行業(yè)內(nèi)玩家上升的門檻,技術化的“重模式”注定了這里的玩家會筑高墻,廣積糧。
重新「定義」AI數(shù)據(jù)服務
助力AI企業(yè)獲取更多優(yōu)質(zhì)的特定場景數(shù)據(jù),輔助其構建自身的核心數(shù)據(jù)壁壘——這是云測數(shù)據(jù)一直賦予自身的“使命”。
這是一家不同其它的公司。
它有著自身獨特的運作模式——建立了多個大型的數(shù)據(jù)標注基地和大型場景化數(shù)據(jù)采集中心,高度保證客戶數(shù)據(jù)的精準率,進而輔助產(chǎn)品更好的重現(xiàn)使用時的場景和真實情況。
“我們發(fā)現(xiàn)AI與產(chǎn)業(yè)相結合是未來趨勢,為此我們培養(yǎng)工作人員學習相關領域知識,以更好更快的理解企業(yè)需求,輔助企業(yè)建立數(shù)據(jù)核心壁壘。”賈宇航這樣表示。
與之對應的是在每個項目內(nèi)都會有對應的場景化數(shù)據(jù)模式培訓,保證數(shù)據(jù)采集不僅僅是限于科學理論,而且更合乎產(chǎn)業(yè),更合乎實際情況?!皵?shù)據(jù)采集同樣需要領域的相關知識,以更好更真實地還原一些場景?!?/p>
可以理解為,云測數(shù)據(jù)的采集模式更像是“產(chǎn)業(yè)+技術”的雙重疊加,以更為科學的模式重現(xiàn)生活化的場景,使數(shù)據(jù)更鮮活有生命。
在他看來,如今云測數(shù)據(jù)的角色更像是服務企業(yè)AI數(shù)據(jù)核心壁壘的"構建者" 。它利用自身這種“更為鮮活的數(shù)據(jù)”來輔助企業(yè)的AI業(yè)務線快速成型,迭代進化,進而加速人工智能行業(yè)的場景化落地。
從某種角度來說,云測數(shù)據(jù)正在重新定義“AI數(shù)據(jù)服務”——通過協(xié)同溝通、對定制化場景理解,進而搭建對應采集線下場地,同時以技術驅(qū)動提升標注流程的效率,以更好地滿足業(yè)務對數(shù)據(jù)的要求。
從技術出發(fā),落地到精細場景,可以看到,云測數(shù)據(jù)越走越穩(wěn),也越走越快。
快速,進化和細分
不同的前進方向,永遠是時代浪潮中企業(yè)發(fā)展的常態(tài)。決定于此的,是基于當下市場的需求。
一個不可忽略的大背景是,數(shù)據(jù)行業(yè)正在蓬勃發(fā)展,據(jù)IBM Marketing Cloud分析指出,近9成數(shù)據(jù)在兩年內(nèi)產(chǎn)生。而結合5G和AIOT的設備的到來,未來更將會有越來越多的數(shù)據(jù)產(chǎn)生,進而不斷催生數(shù)據(jù)服務業(yè)的發(fā)展。
而面對新產(chǎn)品的不斷落地,如今數(shù)據(jù)行業(yè)正處在選擇和被選擇的分水嶺。
在如今的數(shù)據(jù)采集和標注賽道上,你能看到遍布三四線城市的“小團隊”,也能看到像云測數(shù)據(jù)這樣偏更重場景化、精細化的數(shù)據(jù)企業(yè);你能看到每天有不少團隊選擇眾包的渠道模式,也能看到很多AI數(shù)據(jù)企業(yè)開始自建線下場地,精益求精,建立品牌。
從某種程度來看,每個行業(yè)形態(tài)的存在都必然有其合理性。企業(yè)對于自身數(shù)據(jù)的需多種多樣,對應的也自然是以完成客戶需求為使命的不同服務形態(tài)的企業(yè)模式。
但就當下而言,數(shù)據(jù)行業(yè)更像是一個蹣跚學步的孩童。我們很難給它的未來下一個確切的定義,但可以肯定的是,隨著企業(yè)模式的變化,這個行業(yè)也必將呈現(xiàn)不斷進化的態(tài)勢。
“就企業(yè)來說,只是對于業(yè)務模式的選擇不同而已,但我們更看好現(xiàn)在這個精細化、場景化的方向?!辟Z宇航最后說。