技術(shù)
導(dǎo)讀:盡管AI、物聯(lián)網(wǎng)以及GDPR(一般數(shù)據(jù)保護(hù)條例)持續(xù)占據(jù)頭條,但也不要忘記在大數(shù)據(jù)的實(shí)現(xiàn)性應(yīng)用方面,云遷移與流分析所產(chǎn)生的劃時(shí)代影響。
盡管AI、物聯(lián)網(wǎng)以及GDPR(一般數(shù)據(jù)保護(hù)條例)持續(xù)占據(jù)頭條,但也不要忘記在大數(shù)據(jù)的實(shí)現(xiàn)性應(yīng)用方面,云遷移與流分析所產(chǎn)生的劃時(shí)代影響。
誠(chéng)然,AI所產(chǎn)生的影響已然無法忽視,其影響所覆蓋的范圍從地緣政治到市井瑣事,甚至還參與了一些舉世聞名的事件。此外,物聯(lián)網(wǎng)在當(dāng)今社會(huì)中日益增長(zhǎng)的影響也是不容忽視的,具體包括家庭、醫(yī)院提供醫(yī)療服務(wù)的方式、自動(dòng)駕駛汽車的驅(qū)動(dòng)、工廠的運(yùn)營(yíng)以及智能化城市管理等方面。爾后,GDPR將在2018年生效,這將迫使各組織著力解決將涉及隱私與國(guó)家主權(quán)影響的數(shù)據(jù)從現(xiàn)有數(shù)據(jù)庫(kù)轉(zhuǎn)移到數(shù)據(jù)湖與云存儲(chǔ)的過程中所要面臨的問題。
透過表面看本質(zhì),我們發(fā)現(xiàn)構(gòu)造性轉(zhuǎn)變已經(jīng)開始,具體包括企業(yè)在云領(lǐng)域的管理方式、流數(shù)據(jù)分析與數(shù)據(jù)湖戰(zhàn)略等。
目前,已有27.5%的大數(shù)據(jù)工作負(fù)載運(yùn)行在云端(來源:Ovum ICT Enterprise Insights)
關(guān)于未來展望,我們將著眼于數(shù)據(jù)的管理方式?;仡欉^去的一年,我們?cè)硎尽按髷?shù)據(jù)——無論其來自于物聯(lián)網(wǎng)還是更為傳統(tǒng)的資源——將會(huì)逐步實(shí)現(xiàn)在云中完成存儲(chǔ)與處理?!比ツ?,我們預(yù)計(jì)會(huì)有35—40%的新生大數(shù)據(jù)工作負(fù)載將在云端完成部署,而到2018年底,新的部署將超過50%。
我們的預(yù)測(cè)并非不切實(shí)際;Ovum針對(duì)所有大數(shù)據(jù)工作負(fù)載的最新全球調(diào)查研究顯示,在此之中的27.5%已經(jīng)完成了云端部署。另外,根據(jù)Ovum的報(bào)告,企業(yè)云應(yīng)用很難將大數(shù)據(jù)拒之門外,而在各式各樣的工作負(fù)載中,企業(yè)云應(yīng)用所占據(jù)的比例在26—30%之間。
由于慣性使然,大多數(shù)組織已經(jīng)不再堅(jiān)持立足云環(huán)境復(fù)制與其自有數(shù)據(jù)中心相關(guān)的種種功能特性。此外,大多數(shù)組織會(huì)選擇使用多個(gè)家云供應(yīng)商,這看似是為了取各家之所長(zhǎng)。然而,正如以往的類似教訓(xùn)一樣,這其實(shí)只是自上而下的企業(yè)標(biāo)準(zhǔn)政策與部門針對(duì)相關(guān)政策權(quán)衡之后所做出的妥協(xié)性決策產(chǎn)物。
因此,如同您所在的組織可能面臨SAP的使用成本一樣,不同部門可能同樣面臨著與人力資源相關(guān)的日常開銷或CRM銷售壓力,抑或擁有多種尚未與企業(yè)遺留方案相融合的ERP系統(tǒng)。在云端,企業(yè)電子郵件系統(tǒng)可能通過Office 365實(shí)現(xiàn),而部門IT團(tuán)隊(duì)則將使用AWS進(jìn)行開發(fā)與測(cè)試; 與此同時(shí),企業(yè)營(yíng)銷團(tuán)隊(duì)使用的則是Google Analytics。
隨著云從運(yùn)行獨(dú)立工作負(fù)載的目標(biāo)發(fā)展至企業(yè)關(guān)鍵型應(yīng)用,我們預(yù)計(jì)在2018年初期,大多數(shù)公司將開始正式實(shí)施多云策略——正如在2017年,我們將云端部署視為大數(shù)據(jù)的隱患一般——多云也因此將成為2018年亟待解決的問題。也正因?yàn)槿绱耍坠俏姆矫鏇Q定將運(yùn)行在亞馬遜RDS服務(wù)上的數(shù)據(jù)庫(kù)產(chǎn)品的使用價(jià)格進(jìn)行翻倍; 這也是為何Aurora OLTP數(shù)據(jù)庫(kù)目前能夠成為亞馬遜公司中增長(zhǎng)速度最快的服務(wù)(在此之前的冠軍為Redshift)。
這不僅僅是云供應(yīng)商對(duì)于此類擔(dān)憂的反應(yīng)性決策,多云的決策將影響有關(guān)平臺(tái)的選擇。當(dāng)您選擇在EC 2上運(yùn)行一套甲骨文的數(shù)據(jù)庫(kù)或Hadoop集群時(shí)——若Azure或Google Cloud調(diào)整其定價(jià)——這同時(shí)也成為了一項(xiàng)值得重新審視的抉擇。
當(dāng)您選擇在IBM云端運(yùn)行Aurora、Cosmos DB、谷歌BigQuery、甲骨文Autonomous數(shù)據(jù)庫(kù)18c或IBM分析系統(tǒng)時(shí),這不僅意味著需要選擇云,還需要選擇數(shù)據(jù)平臺(tái)?,F(xiàn)在,您對(duì)于這一選擇是否能夠讓運(yùn)行一套特定云的數(shù)據(jù)平臺(tái)增值的關(guān)注度已經(jīng)遠(yuǎn)勝于是否選擇依賴一家特定的云供應(yīng)商——這就如同讓您再一次面對(duì)甲骨文公司或SQL Server平臺(tái)做出決策。
誠(chéng)然,這也是亞馬遜公司與微軟方面正在以幾乎免費(fèi)的方式提供數(shù)據(jù)庫(kù)遷移服務(wù)的原因——毫無疑問的是這兩家公司想要占領(lǐng)您的企業(yè)數(shù)據(jù)庫(kù)。同樣,我們預(yù)計(jì)Google Cloud、甲骨文與IBM將會(huì)在2018年積極以虧損方式搶占數(shù)據(jù)庫(kù)遷移服務(wù)份額,并且越來越多的企業(yè)會(huì)在這一領(lǐng)域拼盡全力。
多云戰(zhàn)略也將在混合云的管理方面發(fā)揮至關(guān)重要的作用。正如鮮有組織——無論其規(guī)模如何——傾向于依賴單一云供應(yīng)商一般,也很少有組織(除了初創(chuàng)企業(yè)之外)會(huì)將全部的工作負(fù)載轉(zhuǎn)移至云端。在云計(jì)算平臺(tái)運(yùn)行分析時(shí),無論是在設(shè)計(jì)抑或是數(shù)據(jù)主權(quán)的問題上,維護(hù)敏感客戶記錄的透明度將會(huì)成為影響云計(jì)算平臺(tái)選擇的主要因素。
數(shù)據(jù)管道改變了實(shí)時(shí)處理的重心
去年,我們預(yù)測(cè)“物聯(lián)網(wǎng)將成為把實(shí)時(shí)流數(shù)據(jù)推向前端的應(yīng)用實(shí)例?!苯衲?,谷歌方面的Anadiotis預(yù)測(cè),不僅流數(shù)據(jù)將成為主流,“并且還將逐步實(shí)現(xiàn)即時(shí)分析?!?/p>
流數(shù)據(jù)分析并非是新鮮術(shù)語(yǔ);在此之前,我們已經(jīng)投入了大量精力以讓其重拾關(guān)注。在進(jìn)行數(shù)據(jù)存儲(chǔ)之前,流數(shù)據(jù)處理可被用于數(shù)據(jù)的解析與過濾以及模式或事件的檢測(cè)。物聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng)自然催生了難題——所有數(shù)據(jù)是否都需要存儲(chǔ)以及在哪里完成數(shù)據(jù)的處理。
隨著我們?nèi)找嬖鲩L(zhǎng)的技術(shù)需求,我們希望能夠在數(shù)據(jù)運(yùn)行的同時(shí)完成更多的工作負(fù)載。這不僅解釋了用于隊(duì)列處理的Kafka與分發(fā)數(shù)據(jù)技術(shù)的萌生,還表明了數(shù)據(jù)平臺(tái)供應(yīng)商——諸如SAP、 Hortonworks、MapR與 Teradata——正在采取相關(guān)行動(dòng)的原因。 Amazon Kinesis、 Azure Data Factory以及 Google Cloud Dataflow的崛起亦是這類即時(shí)需求的直接產(chǎn)物。數(shù)據(jù)管道能夠?qū)?shí)時(shí)處理從基礎(chǔ)過濾與轉(zhuǎn)換擴(kuò)展為協(xié)調(diào)進(jìn)程,從而支持高級(jí)預(yù)測(cè)分析與機(jī)器學(xué)習(xí)。因此,我們預(yù)計(jì)數(shù)據(jù)管道將在2018年成為流式分析的關(guān)鍵性支柱。此外,我們還將在這個(gè)領(lǐng)域聽到來自于IBM與甲骨文等供應(yīng)商所帶來的更多消息。
云存儲(chǔ)已在客觀層面扮演數(shù)據(jù)湖角色
因?yàn)閿?shù)據(jù)湖是專為保存那些不適合于其它位置且易丟失的數(shù)據(jù)而設(shè)計(jì),所以當(dāng)您想到數(shù)據(jù)湖時(shí),您可能自然就會(huì)想到Hadoop。我們已經(jīng)將數(shù)據(jù)湖定義為受管理的存儲(chǔ)庫(kù),并致力于讓其成為數(shù)據(jù)的默認(rèn)提取點(diǎn)。但是,我們現(xiàn)在發(fā)現(xiàn)數(shù)據(jù)湖的安裝啟用超過了Hadoop。或者正如Mike Olson在2014年所預(yù)言的一般——Hadoop終將消失。
數(shù)據(jù)湖以聯(lián)動(dòng)查詢工具作為起點(diǎn),現(xiàn)已成為每個(gè)分析數(shù)據(jù)庫(kù)的配套項(xiàng)目。我們已經(jīng)見證了JSON數(shù)據(jù)庫(kù)通過Spark進(jìn)行擴(kuò)展,從而實(shí)現(xiàn)分析查詢。此外,我們還目睹了各Hadoop供應(yīng)商(例如Cloudera 與 Hortonworks)將其數(shù)據(jù)管理服務(wù)與HDFS分離。所以,現(xiàn)在數(shù)據(jù)湖即是數(shù)據(jù)存儲(chǔ)的位置所在。
毫無疑問,云供應(yīng)商享有最后的發(fā)言權(quán):在云端,云存儲(chǔ)顯然已成為數(shù)據(jù)的默認(rèn)攝取點(diǎn)。所以,云供應(yīng)商正在致力于讓其云對(duì)象存儲(chǔ)配備直接查詢功能。亞馬遜方面現(xiàn)在已可通過S3直接訪問配有Athena 的SQL 實(shí)際查詢,并可作為Redshift Spectrum數(shù)據(jù)倉(cāng)庫(kù)的擴(kuò)展。Google Cloud早已將其云存儲(chǔ)作為BigQuery的默認(rèn)來源,而Snowflake——第三方云數(shù)據(jù)倉(cāng)庫(kù)——也是如此。
此外,頗為諷刺的是,云存儲(chǔ)最初其實(shí)專為存儲(chǔ)需求而設(shè)計(jì)。然而,在云對(duì)象存儲(chǔ)占據(jù)了大部分?jǐn)?shù)據(jù)的世界里,催生了企業(yè)要優(yōu)化訪問需求。所以在2018年,我們預(yù)計(jì)幾乎所有的數(shù)據(jù)倉(cāng)庫(kù)與分析數(shù)據(jù)庫(kù)都將對(duì)接當(dāng)下流行的云對(duì)象存儲(chǔ)方案,具體包括S3、Azure BLOB Storage與Google Cloud Storage等支持目標(biāo)。