技術(shù)
導(dǎo)讀:2015年,馬云拜訪名為Supercell的芬蘭游戲公司,雖然這家公司僅有180人,但是他們開(kāi)發(fā)新游戲的速度特別快,公司旗下游戲DAU已經(jīng)突破1億。
數(shù)據(jù)中臺(tái)絕對(duì)不等于數(shù)據(jù)平臺(tái),差別之一就在于是否具有業(yè)務(wù)屬性,這也是數(shù)據(jù)中臺(tái)出現(xiàn)的一個(gè)非常重要的原因,它可以支撐多個(gè)前臺(tái)業(yè)務(wù),使得數(shù)據(jù)不再是各前端業(yè)務(wù)獨(dú)立管理,真正實(shí)現(xiàn)不同業(yè)務(wù)之間的互通互融。
2015年,馬云拜訪名為Supercell的芬蘭游戲公司,雖然這家公司僅有180人,但是他們開(kāi)發(fā)新游戲的速度特別快,公司旗下游戲DAU已經(jīng)突破1億。2016年,騰訊以86億美元收購(gòu)了其84%的股權(quán),這不僅是騰訊歷史上,也是近年全球手機(jī)游戲行業(yè)最大金額的并購(gòu)。這家“小公司”為什么這么牛逼?因?yàn)樗麄儼延螒蛐枰耐ㄓ脭?shù)據(jù)、素材都放在一起供大家使用,實(shí)現(xiàn)了業(yè)務(wù)互通,大大提高了每個(gè)團(tuán)隊(duì)的效率。不久之后,阿里就成立了數(shù)據(jù)中臺(tái)的團(tuán)隊(duì),隨后國(guó)內(nèi)的公司也都紛紛效仿,開(kāi)始架構(gòu)屬于自己的數(shù)據(jù)中臺(tái)。
圖源:圖蟲(chóng)創(chuàng)意
什么是數(shù)據(jù)中臺(tái):
基于那次拜訪產(chǎn)生的靈感,阿里提出了“大中臺(tái),小前臺(tái)”的概念,即將業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)業(yè)務(wù)化,真正實(shí)現(xiàn)數(shù)據(jù)和業(yè)務(wù)進(jìn)行打通。阿里數(shù)據(jù)技術(shù)和產(chǎn)品部門(mén)的負(fù)責(zé)人曾說(shuō)過(guò):“很多人會(huì)把數(shù)據(jù)比作石油,馬云也說(shuō)過(guò),阿里巴巴要成為全球電子商務(wù)的水電煤。我們現(xiàn)在搭建的數(shù)據(jù)中臺(tái),就是希望扮演發(fā)電廠的角色?!?/p>
數(shù)據(jù)中臺(tái)絕對(duì)不等于數(shù)據(jù)平臺(tái),差別之一就在于是否具有業(yè)務(wù)屬性,這也是數(shù)據(jù)中臺(tái)出現(xiàn)的一個(gè)非常重要的原因,它可以支撐多個(gè)前臺(tái)業(yè)務(wù),使得數(shù)據(jù)不再是各前端業(yè)務(wù)獨(dú)立管理,真正實(shí)現(xiàn)不同業(yè)務(wù)之間的互通互融。
我就曾經(jīng)參加過(guò)的一個(gè)項(xiàng)目給大家講講數(shù)據(jù)中臺(tái)包含那些東西。
1.數(shù)據(jù)采集
為數(shù)據(jù)中臺(tái)提供匯集數(shù)據(jù)的能力,應(yīng)提供統(tǒng)一的數(shù)據(jù)獲取接入方式,數(shù)據(jù)來(lái)源包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),數(shù)據(jù)類型應(yīng)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集。傳統(tǒng)的ETL工具仍然可以復(fù)用,實(shí)現(xiàn)數(shù)據(jù)采集、轉(zhuǎn)換、加載等關(guān)鍵處理過(guò)程。
2.數(shù)據(jù)計(jì)算
為數(shù)據(jù)中臺(tái)提供統(tǒng)一的大數(shù)據(jù)計(jì)算能力,針對(duì)不同大數(shù)據(jù)處理場(chǎng)景,所需提供的數(shù)據(jù)計(jì)算能力也不同,一般主要包括批量離線計(jì)算、內(nèi)存計(jì)算、在線流式計(jì)算等,可用到的技術(shù)有數(shù)據(jù)挖掘,大數(shù)據(jù)分析,云計(jì)算等。
3.數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)中臺(tái)中全域數(shù)據(jù)的存儲(chǔ)中心,按照不同的數(shù)據(jù)類型,可以采用圖中一種或多種數(shù)據(jù)存儲(chǔ)系統(tǒng)的“混搭”架構(gòu)。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(如DB2/ORACLE)是最為穩(wěn)定的數(shù)據(jù)存儲(chǔ)方式,承載著及時(shí)性、準(zhǔn)確性要求高的企業(yè)核心應(yīng)用。分布式關(guān)系數(shù)據(jù)庫(kù),也常簡(jiǎn)稱為MPP數(shù)據(jù)庫(kù),相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),具有高性能處理能力、高數(shù)據(jù)吞吐能力的優(yōu)勢(shì)。
NoSQL分布式數(shù)據(jù)庫(kù)屬于非關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),在大數(shù)據(jù)簡(jiǎn)單存取上具備關(guān)系型數(shù)據(jù)庫(kù)無(wú)法比擬的性能優(yōu)勢(shì)。分布式文件系統(tǒng)(HDFS)是當(dāng)前最常見(jiàn)的大數(shù)據(jù)存儲(chǔ)方式,它具極高的性價(jià)比,擴(kuò)展性強(qiáng)。數(shù)據(jù)湖作為一種新的存儲(chǔ)大量復(fù)雜格式數(shù)據(jù),避免企業(yè)數(shù)據(jù)孤島化的數(shù)據(jù)架構(gòu)方案,可用來(lái)將不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一聚合和存儲(chǔ)。
4.數(shù)據(jù)治理
指的是為了實(shí)現(xiàn)對(duì)企業(yè)中數(shù)據(jù)資產(chǎn)價(jià)值的獲取、管控、交付等目的,基于制定的數(shù)據(jù)規(guī)范,對(duì)數(shù)據(jù)資產(chǎn)所做的一系列管理活動(dòng)。數(shù)據(jù)標(biāo)準(zhǔn)管理指對(duì)數(shù)據(jù)口徑、公共術(shù)語(yǔ)、參考數(shù)據(jù)、數(shù)據(jù)編碼等制定和實(shí)施標(biāo)準(zhǔn)化的管理活動(dòng)。數(shù)據(jù)模型管理負(fù)責(zé)對(duì)系統(tǒng)中核心的邏輯模型、物理模型、數(shù)據(jù)庫(kù)表、字段、視圖等進(jìn)行統(tǒng)一管控、促進(jìn)其規(guī)范化。
5.數(shù)據(jù)服務(wù)
包括了與業(yè)務(wù)相關(guān)的、可復(fù)用的一些公共技術(shù)組件或產(chǎn)品,如數(shù)據(jù)目錄、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)分析、數(shù)據(jù)開(kāi)放接口、機(jī)器學(xué)習(xí)算法模型等,它們可以使用SAAS方式直接對(duì)外提供服務(wù),也可以以更小粒度如API、消息接口、文件接口、服務(wù)接口、SDK軟件包等方式只提供組件能力或數(shù)據(jù)服務(wù),內(nèi)部或外部第三方應(yīng)用不必關(guān)心底層數(shù)據(jù)準(zhǔn)備情況,直接調(diào)用數(shù)據(jù)服務(wù)模塊對(duì)外提供的服務(wù)接口,就可以方便進(jìn)行二次開(kāi)發(fā),借以增強(qiáng)自身的能力。
為什么要建立數(shù)據(jù)中臺(tái):
業(yè)內(nèi)對(duì)于數(shù)據(jù)中臺(tái)建設(shè)的經(jīng)驗(yàn)還是不足的,我這里給大家講講如何建立數(shù)據(jù)中臺(tái)。
我經(jīng)在手機(jī)上常看見(jiàn)各種公眾號(hào)文章提及數(shù)據(jù)中臺(tái)這個(gè)概念,我也跟各個(gè)行業(yè)的一些大公司的 CIO 交流過(guò),發(fā)現(xiàn)很多行業(yè)的大公司都開(kāi)始組建大數(shù)據(jù)團(tuán)隊(duì),建設(shè)數(shù)據(jù)中臺(tái)。結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟(jì)對(duì)技術(shù)的影響。2018 年開(kāi)始經(jīng)濟(jì)下行,生意不好做了,粗放的經(jīng)營(yíng)已經(jīng)不行了,隨著數(shù)據(jù)時(shí)代的來(lái)臨,越來(lái)越多的企業(yè)想通過(guò)數(shù)據(jù)驅(qū)動(dòng)來(lái)進(jìn)行精細(xì)化的運(yùn)營(yíng)和數(shù)據(jù)化轉(zhuǎn)型。
對(duì)于20人以上的企業(yè)來(lái)講,如果不進(jìn)行精細(xì)化運(yùn)營(yíng),那么各種問(wèn)題可能層出不窮,譬如:小到上演會(huì)議室爭(zhēng)奪戰(zhàn),大到各種業(yè)務(wù)團(tuán)隊(duì)不互相、辦公溝通增加成本、辦公室物資損耗現(xiàn)象嚴(yán)重等等,日復(fù)一日地惡性循環(huán),最終不但會(huì)使管理者和員工感到精疲力盡,還會(huì)驚訝地發(fā)現(xiàn):企業(yè)業(yè)績(jī)沒(méi)有翻番,管理成本和經(jīng)營(yíng)成本等費(fèi)用反倒是陡然躥高,企業(yè)陷入了持續(xù)虧損的泥潭。
這時(shí)候,一個(gè)連接前后臺(tái),并且為業(yè)務(wù)負(fù)責(zé)的數(shù)據(jù)中臺(tái)的出現(xiàn)就非常有必要了,它能更好的幫助企業(yè)進(jìn)行精細(xì)化運(yùn)營(yíng),從而減少甚至杜絕上面提到的任何問(wèn)題。
如何建立數(shù)據(jù)中臺(tái):
第一步,需要有個(gè)完整的地方把所有數(shù)據(jù)串聯(lián)起來(lái);第二步,數(shù)據(jù)需要打通,并被整理好;第三步,數(shù)據(jù)要能夠驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)。其中,只有第二步和軟件架構(gòu)有關(guān)系,其它兩步與軟件架構(gòu)的關(guān)聯(lián)都不是那么緊密,第一步是信息化,第三步與管理層更緊密。
首先,數(shù)據(jù)中臺(tái)一定要與業(yè)務(wù)價(jià)值對(duì)齊。構(gòu)建數(shù)據(jù)中臺(tái),最重要的不是技術(shù),也不是數(shù)據(jù)質(zhì)量好不好,而是數(shù)據(jù)思維和數(shù)據(jù)文化。數(shù)據(jù)思維就是要建立起從數(shù)據(jù)的視角去思考問(wèn)題的方式;數(shù)據(jù)文化就是要把數(shù)據(jù)和業(yè)務(wù)當(dāng)成一體去看,而不是只將數(shù)據(jù)當(dāng)作一個(gè)支持工具,想清楚業(yè)務(wù)對(duì)于數(shù)據(jù)的訴求是構(gòu)建數(shù)據(jù)中臺(tái)的第一步。不要在業(yè)務(wù)場(chǎng)景還沒(méi)有明確、優(yōu)先級(jí)還不清晰、價(jià)值度量體系尚未建立起來(lái)的時(shí)候,就建立大而全的數(shù)據(jù)平臺(tái),
其次,數(shù)據(jù)中臺(tái)應(yīng)該從小數(shù)據(jù)、小場(chǎng)景做起。數(shù)據(jù)中臺(tái)是面向場(chǎng)景而非面向技術(shù)的,這種與客戶的業(yè)務(wù)、企業(yè)的結(jié)構(gòu)和信息化發(fā)展階段有著緊密的相關(guān)性的業(yè)務(wù)基礎(chǔ)架構(gòu),是很難買(mǎi)一個(gè)大而全的產(chǎn)品來(lái)一勞永逸解決的。
一開(kāi)始的時(shí)候需要頂層設(shè)計(jì),面向業(yè)務(wù)愿景制定中臺(tái)的整體規(guī)劃,全面的梳理數(shù)據(jù)創(chuàng)新全景藍(lán)圖,這就是上圖左邊的黑色框架部分,通過(guò)業(yè)務(wù)愿景驅(qū)動(dòng)出所有的業(yè)務(wù)場(chǎng)景探索,從而推導(dǎo)出數(shù)據(jù)中臺(tái)的全景架構(gòu)、技術(shù)支撐。
但是在實(shí)施的時(shí)候,要從具體的業(yè)務(wù)場(chǎng)景出發(fā)。從高價(jià)值數(shù)據(jù)集場(chǎng)景做起,然后順著這個(gè)場(chǎng)景豎切,找到數(shù)據(jù)全景圖中的一個(gè)或多個(gè)數(shù)據(jù)集合,從小數(shù)據(jù)場(chǎng)景落地,這樣才能快速驗(yàn)證價(jià)值。大處思考,全局拉通,避免后續(xù)的數(shù)據(jù)孤島,但是從小數(shù)據(jù)集切入,從可實(shí)現(xiàn)性高的場(chǎng)景啟動(dòng)。然后一個(gè)個(gè)的場(chǎng)景做起來(lái),業(yè)務(wù)價(jià)值和中臺(tái)能力也就同步建立起來(lái)了。
企業(yè)實(shí)際案例: 數(shù)據(jù)中臺(tái)的建立一定會(huì)伴隨著企業(yè)架構(gòu)的調(diào)整,除非兩家企業(yè)的業(yè)務(wù)都是一樣的,否則不會(huì)存在對(duì)一個(gè)企業(yè)都適用的數(shù)據(jù)中臺(tái)。
企業(yè)建設(shè)數(shù)據(jù)中臺(tái),可以通過(guò)合理規(guī)劃、復(fù)用內(nèi)部現(xiàn)有已經(jīng)完善的大數(shù)據(jù)處理工具來(lái)支撐建設(shè),充分借鑒業(yè)界數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐,從核心需求出發(fā),以某垂直業(yè)務(wù)的數(shù)據(jù)入手,打通數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、治理、服務(wù)的工作全流程,逐步擴(kuò)展到全域數(shù)據(jù)的接入、加工和管理,建設(shè)起自有的數(shù)據(jù)中臺(tái)。
筆者和阿里的高層就數(shù)據(jù)中臺(tái)有過(guò)一次朋友之間的聊天,他給我講述了阿里的數(shù)據(jù)中臺(tái)應(yīng)該是什么樣子的。
阿里的業(yè)務(wù)中臺(tái)包含兩個(gè)數(shù)據(jù)庫(kù),一個(gè)數(shù)據(jù)生產(chǎn)庫(kù),一個(gè)數(shù)據(jù)中臺(tái)(歷史庫(kù)),包含了所有的歷史數(shù)據(jù)和關(guān)鍵算法。以阿里電商為例,用戶如果想買(mǎi)一個(gè)手機(jī),在下單頁(yè)面就會(huì)推薦手機(jī)殼、充電寶等相關(guān)產(chǎn)品。但值得注意的是,研發(fā)不知道你喜歡上面,在服務(wù)的過(guò)程中,需要根據(jù)你的一系列消費(fèi)行為或者其他活動(dòng)的歷史記錄去分析。
那么問(wèn)題來(lái)了,如果這個(gè)數(shù)據(jù)量非常龐大,現(xiàn)查是非常慢的,不可能瞬間就查到結(jié)果,那怎么辦呢?這就是數(shù)據(jù)中臺(tái)要做的事情,把用戶在歷史庫(kù)里的一堆數(shù)據(jù)做成一序列業(yè)務(wù)模型,然后在業(yè)務(wù)中臺(tái)里要查某一用戶喜歡什么時(shí),它能立馬調(diào)出結(jié)果并反饋,這是數(shù)據(jù)中臺(tái)最大的魅力,這個(gè)反饋可能是毫秒級(jí)的。
這才是數(shù)據(jù)中臺(tái)真正發(fā)揮價(jià)值的地方,而不是說(shuō)做個(gè)可視化大屏就覺(jué)得有了數(shù)據(jù)中臺(tái)或是聽(tīng)說(shuō)數(shù)據(jù)有價(jià)值就去搞個(gè)數(shù)據(jù)中臺(tái),這都是沒(méi)有真正理解數(shù)據(jù)中臺(tái)的表現(xiàn)。從建設(shè)的角度來(lái)講,一般是先建設(shè)業(yè)務(wù)中臺(tái),然后有了一定量的數(shù)據(jù),想清楚了這個(gè)數(shù)據(jù)該怎么用才去建設(shè)數(shù)據(jù)中臺(tái),然后再反過(guò)來(lái)優(yōu)化業(yè)務(wù)能力,讓業(yè)務(wù)智能化。
總結(jié):
當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細(xì)化運(yùn)營(yíng),進(jìn)而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時(shí)候,就需要建設(shè)數(shù)據(jù)中臺(tái)。當(dāng)然,數(shù)據(jù)中臺(tái)的建立不是一蹴而就的,每個(gè)企業(yè)都應(yīng)該基于實(shí)際打造獨(dú)有的中臺(tái)能力。