應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

大數(shù)據(jù):移動(dòng)互聯(lián)時(shí)代的驚濤駭浪

2012-07-18 09:35 騰訊科技

導(dǎo)讀:我們尚無(wú)法確定萬(wàn)物是否皆數(shù),但是,在移動(dòng)互聯(lián)網(wǎng)時(shí)代,人類至少已經(jīng)推開(kāi)了這樣一扇大門:通過(guò)對(duì)海量大數(shù)據(jù)的高效分析獲得商業(yè)以及社會(huì)價(jià)值。大數(shù)據(jù)為移動(dòng)互聯(lián)網(wǎng)帶來(lái)了新的價(jià)值,也為邁向物聯(lián)網(wǎng)奠定了基礎(chǔ)。

  我們尚無(wú)法確定萬(wàn)物是否皆數(shù),但是,在移動(dòng)互聯(lián)網(wǎng)時(shí)代,人類至少已經(jīng)推開(kāi)了這樣一扇大門:通過(guò)對(duì)海量大數(shù)據(jù)的高效分析獲得商業(yè)以及社會(huì)價(jià)值。大數(shù)據(jù)為移動(dòng)互聯(lián)網(wǎng)帶來(lái)了新的價(jià)值,也為邁向物聯(lián)網(wǎng)奠定了基礎(chǔ)。

  一個(gè)數(shù)據(jù)分析師以“指揮家”的模樣出現(xiàn)在舞臺(tái)上。隨著他手臂的有力揮舞,一串串?dāng)?shù)據(jù)被馴服了。他游刃有余,但數(shù)據(jù)越來(lái)越多,來(lái)勢(shì)越來(lái)越兇猛。他有點(diǎn)吃力,他左右搖擺,他手忙腳亂!一陣巨浪打過(guò)來(lái),他站立的地方猶如一葉扁舟覆沒(méi)在數(shù)據(jù)的海洋……

  同樣的場(chǎng)景,另一個(gè)分析師出現(xiàn)了,還是那揮舞的手臂,還是海量的數(shù)據(jù)撲面而來(lái),但他駕輕就熟,鎮(zhèn)定自如地指揮著,仿佛那不是雜亂無(wú)章的數(shù)據(jù),而是音樂(lè)大師譜寫的傳世樂(lè)章。

  2012年7月13日,在亮馬河大廈的“大數(shù)據(jù)世界論壇”上,SAS公司首席咨詢顧問(wèn)張磊博士在演講前,播放了這么一段激動(dòng)人心的視頻。全場(chǎng)為之雷動(dòng)。

  移動(dòng)互聯(lián)網(wǎng)迎來(lái)了大數(shù)據(jù)

  “這是像我這樣的數(shù)據(jù)人最為激動(dòng)人心的時(shí)刻,因?yàn)閿?shù)據(jù)庫(kù)、大數(shù)據(jù)已經(jīng)成為變革的中心,事實(shí)上可以成為一場(chǎng)革命,在IT領(lǐng)域、制造業(yè)、零售業(yè)、政府管理、科技,大數(shù)據(jù)改變了整個(gè)世界的運(yùn)行方式。因此,我們稱之為大數(shù)據(jù)的新世界?!?/P>

  孫博凱仿佛還沉浸在剛才的氛圍中。他是微軟亞太研發(fā)集團(tuán)首席技術(shù)官。孫博凱說(shuō),推動(dòng)大數(shù)據(jù)變革的有幾大因素,比如價(jià)格低廉的存儲(chǔ)和云計(jì)算能力,比如“大家都意識(shí)到的移動(dòng)設(shè)備的爆炸,每個(gè)人都有一個(gè)或者一個(gè)以上的移動(dòng)設(shè)備,現(xiàn)在全世界的移動(dòng)設(shè)備用戶可能已經(jīng)達(dá)到了55億?!倍?,“這不僅僅關(guān)乎到網(wǎng)絡(luò)用戶,還關(guān)乎到傳感器,我們預(yù)計(jì)會(huì)有100億的傳感器連到網(wǎng)絡(luò)上,這一切都為我們帶來(lái)了大數(shù)據(jù)的新變革?!?/P>

  也就是說(shuō),譜寫這數(shù)字音符的,不是舒伯特、莫扎特,而是移動(dòng)互聯(lián)網(wǎng)時(shí)代的每一個(gè)網(wǎng)民以及每一臺(tái)智能手機(jī)、電腦、傳感器。而大數(shù)據(jù)也就是由此產(chǎn)生的有別于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),或者說(shuō),傳統(tǒng)技術(shù)無(wú)法分析出有價(jià)值的結(jié)果的數(shù)據(jù)。它占到了全部數(shù)據(jù)總量的85%。

  對(duì)于大數(shù)據(jù)的來(lái)源,英特爾行業(yè)合作與解決方案部中國(guó)區(qū)總監(jiān)凌琦換了一種更為簡(jiǎn)潔的說(shuō)法,除了社交網(wǎng)絡(luò)及傳統(tǒng)的商業(yè)領(lǐng)域“人跟人交易、人跟人溝通”所產(chǎn)生的數(shù)據(jù)之外,“還有一類是機(jī)器和機(jī)器、現(xiàn)有智能設(shè)備網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),這個(gè)數(shù)量會(huì)更大,而互聯(lián)網(wǎng)走向物聯(lián)網(wǎng)這條路是必然趨勢(shì),隨著時(shí)間的增長(zhǎng),大家會(huì)看到物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)會(huì)更多”。

  凌琦說(shuō),全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB的主要增長(zhǎng)來(lái)源,就是大數(shù)據(jù)。

  與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有以下四個(gè)典型特征,即多樣性(variety)、體量(volume)、速度(velocity)以及價(jià)值(value),也就是說(shuō),它集結(jié)構(gòu)復(fù)雜、體量龐大和快速處理于一身,并最終產(chǎn)生巨大的商業(yè)和社會(huì)價(jià)值。

  就像ForresterResearch資深分析師曹宇欽說(shuō)的那樣,大數(shù)據(jù)并非全新技術(shù),“大數(shù)據(jù)最主要是幫助企業(yè)對(duì)現(xiàn)有的數(shù)據(jù)、已經(jīng)產(chǎn)生的數(shù)據(jù)做一些整合,相應(yīng)地做少量的投入而得到更大的回報(bào)”。我們甚至還可以說(shuō),傳統(tǒng)互聯(lián)網(wǎng)也產(chǎn)生了很多大數(shù)據(jù),但是,移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展、云計(jì)算以及物聯(lián)網(wǎng)的初步應(yīng)用,有力地推進(jìn)了大數(shù)據(jù)時(shí)代的來(lái)臨,這是毋庸置疑的。

  大數(shù)據(jù)分析的難點(diǎn)

  設(shè)想你在京東商城或者亞馬遜訂了一件商品,那么機(jī)器就會(huì)將你的ID號(hào)碼、送貨地址、手機(jī)、電話、電子郵件以及收貨時(shí)間等等全部記錄下來(lái)。如果你提交了物品評(píng)論,或者和好友在微博上進(jìn)行了分享,同樣,也會(huì)被記錄下來(lái)。

  洞察這一切,就意味著夢(mèng)寐以求的商機(jī)。

  故而,孫博凱斷言:“兩家公司,有一家公司利用大數(shù)據(jù)技術(shù)而另一家卻沒(méi)有采用,那么,未來(lái)它們的財(cái)務(wù)狀況會(huì)出現(xiàn)明顯的不同,大數(shù)據(jù)已經(jīng)成為了保持企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的競(jìng)爭(zhēng)力?!?/P>

  他說(shuō),在微軟看來(lái),大數(shù)據(jù)意味著管理大數(shù)據(jù)端到端的生命周期,“管理數(shù)據(jù),如何獲取、存儲(chǔ)、保護(hù)安全數(shù)據(jù);下一步,如何保護(hù)你的數(shù)據(jù),如何清潔、發(fā)現(xiàn)相關(guān)的數(shù)據(jù),如何將其他的數(shù)據(jù)與其連接起來(lái);最后,如何在數(shù)據(jù)中獲得洞察力?!?/P>

  但問(wèn)題是,對(duì)大數(shù)據(jù)的分析卻并非易事。

  凌琦認(rèn)為,傳統(tǒng)的存儲(chǔ)結(jié)構(gòu)需要升級(jí)為擴(kuò)展性的存儲(chǔ)架構(gòu),否則無(wú)法適應(yīng)現(xiàn)有的大數(shù)據(jù)存儲(chǔ),同時(shí),對(duì)于分布式的文件系統(tǒng)的支撐之后,需要進(jìn)行實(shí)時(shí)的流處理,而“傳統(tǒng)的數(shù)據(jù)分析更多的是結(jié)構(gòu)化,數(shù)據(jù)量是有限的,集中式處理、批量處理,也無(wú)法滿足需要。”

  賽仕軟件研究開(kāi)發(fā)(北京)有限公司總經(jīng)理劉政說(shuō),在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的手段是關(guān)鍵,“但是傳統(tǒng)的數(shù)據(jù)分析能力,無(wú)法處理這么大量的數(shù)據(jù)。我們平常分析上千萬(wàn)的數(shù)據(jù)量的時(shí)候,都會(huì)花費(fèi)幾十個(gè)小時(shí)的時(shí)間才能得到結(jié)果。當(dāng)你的數(shù)據(jù)量達(dá)到十億的時(shí)候,軟件就根本運(yùn)行不下去,有的時(shí)候會(huì)花上好幾十天,這個(gè)速度人們是無(wú)法接受的。”

  他列舉了一些傳統(tǒng)的分析技術(shù)帶來(lái)的困惑。比如,由于分析手段的限制,取樣時(shí)的樣本數(shù)不夠大,不能充分利用所有的數(shù)據(jù),無(wú)形中破壞了信息的完整性;又比如,受限于分析能力而無(wú)法獲取復(fù)雜問(wèn)題的答案,受限于時(shí)間而不得不采用某項(xiàng)簡(jiǎn)單的建模技術(shù),同樣,也是由于沒(méi)有足夠的時(shí)間來(lái)執(zhí)行多次迭代,你不得不對(duì)模型凈度進(jìn)行妥協(xié)等等。

  劉政說(shuō),上世紀(jì)50年代,美國(guó)飛行員發(fā)現(xiàn),在跟敵人作戰(zhàn)的時(shí)候通過(guò)OODA方法就可以有效地贏得戰(zhàn)爭(zhēng),也就是說(shuō),“如果你的決策比你的對(duì)手快,你就能夠占得先機(jī)”。

  速度在這里被提到了戰(zhàn)略高度。對(duì)大數(shù)據(jù)的分析,也同樣如此。

  品友互動(dòng)是中國(guó)最大的數(shù)字廣告互聯(lián)網(wǎng)技術(shù)公司,率先在廣告技術(shù)領(lǐng)域采用大數(shù)據(jù)研究方法,搭建了多個(gè)以Hadoop為基礎(chǔ)的云計(jì)算平臺(tái)。品有互動(dòng)CEO黃曉南在接受《網(wǎng)絡(luò)導(dǎo)報(bào)》記者專訪時(shí)說(shuō),作為國(guó)內(nèi)最大的需求方平臺(tái)(DSP),品友互動(dòng)每天處理上百億的數(shù)據(jù)量,其DSP平臺(tái)可以對(duì)接廣告交易平臺(tái)(AdExchange)進(jìn)行實(shí)時(shí)競(jìng)價(jià)和智能算法,50毫秒內(nèi)完成響應(yīng)。

  可見(jiàn),沒(méi)有速度,再有價(jià)值的大數(shù)據(jù)也只能是一堆無(wú)法流通的鈔票。

  讓大數(shù)據(jù)來(lái)為你做商業(yè)決策

  黃曉南說(shuō),數(shù)據(jù)挖掘是博大精深的事情,似乎永遠(yuǎn)也沒(méi)有盡頭,品友專注于做的無(wú)非就是“用用戶的行為軌跡來(lái)描繪用戶的屬性,并且在實(shí)踐的過(guò)程中去印證方法的正確性”。不過(guò),在每天都見(jiàn)證數(shù)據(jù)挖掘會(huì)產(chǎn)生實(shí)質(zhì)價(jià)值的過(guò)程中,她也收獲頗豐。黃曉南說(shuō),作為大數(shù)據(jù)的實(shí)踐者,品友互動(dòng)的DSP已經(jīng)成為很多客戶的選擇,廣告投放的效率和效果都得到超過(guò)50%的提升。像Volvo汽車、海爾商城等品牌,投放目標(biāo)人群覆蓋地域、人口屬性、個(gè)人關(guān)注和購(gòu)買傾向四大類,幫助它們實(shí)現(xiàn)高效能的廣告投放效果。

  這個(gè)案例有效地支撐了曹宇欽的說(shuō)法:“在大數(shù)據(jù)時(shí)代,用戶投資大數(shù)據(jù)不僅僅是尋求對(duì)海量數(shù)據(jù)的收集、整理、分析的工具,而是要找到能夠?qū)?shù)據(jù)與業(yè)務(wù)相結(jié)合,實(shí)時(shí)幫助決策者分析問(wèn)題、解決問(wèn)題,提供最佳決策的支持?!?/P>

  孫博凱也認(rèn)為,在大數(shù)據(jù)時(shí)代,必須對(duì)數(shù)據(jù)進(jìn)行豐富,必須“把你的數(shù)據(jù)和世界其他地方的數(shù)據(jù)連接起來(lái)”,這樣才能產(chǎn)生更多的價(jià)值。“首先你要保證它是清潔的、準(zhǔn)確的,然后你會(huì)發(fā)現(xiàn)一些附加數(shù)據(jù),與你所要分析的數(shù)據(jù)相關(guān),你可以把自己的數(shù)據(jù)和Web數(shù)據(jù)整合起來(lái),從中獲得洞察?!?/P>

  他舉例說(shuō),如果你從事銷售行業(yè),希望看到自己的業(yè)績(jī)表現(xiàn)如何,那么光看自己的銷售業(yè)績(jī)并不夠,還需要看自己公司內(nèi)部同事的業(yè)務(wù)如何,你做得比他們好還是比他們差;推而廣之,你還必須看看其他的同業(yè)公司,不管是競(jìng)爭(zhēng)對(duì)手還是合作伙伴,乃至“看一下全世界的數(shù)據(jù),世界經(jīng)濟(jì)是加速還是放緩、是軟著陸還是硬著陸,這對(duì)于你將會(huì)產(chǎn)生什么影響等?!?/P>

  當(dāng)然,我們現(xiàn)在已經(jīng)找到了一些方法,初步的或者局部的。比如,SAS高性能分析軟件就包括了網(wǎng)格計(jì)算、庫(kù)內(nèi)分析以及內(nèi)存分析、可視化分析。甲骨文公司前不久也發(fā)布了自己的大數(shù)據(jù)一體機(jī)平臺(tái),“把大數(shù)據(jù)的存儲(chǔ)、大數(shù)據(jù)的處理、大數(shù)據(jù)的BI展現(xiàn)在一臺(tái)機(jī)器中全部融合進(jìn)去”。

  正如中國(guó)移動(dòng)研究院首席科學(xué)家楊景所說(shuō):“要做好大數(shù)據(jù),讓整個(gè)供應(yīng)鏈都擁有最新的技術(shù),就必須關(guān)注大數(shù)據(jù)的工具,要有工具來(lái)支撐大數(shù)據(jù)時(shí)代的協(xié)同。最終,基于模型驅(qū)動(dòng)的系統(tǒng)工程所滿足的,不是功能需求而是商業(yè)需求?!?/P>

  曾經(jīng)有人說(shuō),國(guó)內(nèi)幾大微博巨頭盡管有龐大的流量,并且在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域布局頗好,但在探索商業(yè)模式方面卻舉步維艱,也許,在不久的將來(lái),當(dāng)他們?cè)诖髷?shù)據(jù)領(lǐng)域有所斬獲的時(shí)候,事情就會(huì)變得相對(duì)容易。