首頁(yè) > 新聞 > 專家觀點(diǎn) >

大數(shù)據(jù)熱背后的冷思考

2012-11-22 09:59:31   作者:吳勇毅   來(lái)源:CCW    評(píng)論:0  點(diǎn)擊:


  繼云計(jì)算、社交網(wǎng)絡(luò)之后,如今大數(shù)據(jù)(Big Data)風(fēng)起云涌,已成為2012 年信息技術(shù)領(lǐng)域最時(shí)髦的詞匯之一。而相比大數(shù)據(jù)的興起,以前以商業(yè)智能分析而著稱的BI開(kāi)發(fā)商卻頗為失落。有人大膽預(yù)測(cè),未來(lái)10年,與大數(shù)據(jù)相關(guān)的商務(wù)智能分析將引領(lǐng)管理信息化的發(fā)展。

  大數(shù)據(jù)

  真的那么必須?

  通常所說(shuō)的大數(shù)據(jù)是具有3種特性的數(shù)據(jù),即大數(shù)據(jù)量(Volume)、高生成速度(Velocity)和多數(shù)據(jù)類型(Variety)。大數(shù)據(jù)量指的是數(shù)據(jù)海量,如今有許多企業(yè)已經(jīng)面臨單日數(shù)據(jù)量以數(shù)十、數(shù)百TB的速度增加,而總數(shù)據(jù)量也達(dá)到了PB(Petabyte)等級(jí),這樣的數(shù)據(jù)量已讓傳統(tǒng)的數(shù)據(jù)庫(kù)難以處理;高生成速度是指企業(yè)數(shù)據(jù)增加的速度越來(lái)越快,諸如移動(dòng)化、社交網(wǎng)絡(luò)的廣泛應(yīng)用,使得數(shù)據(jù)增加的速度比傳統(tǒng)的企業(yè)應(yīng)用程序要快很多,一旦數(shù)據(jù)增生速度加快,數(shù)據(jù)處理、分析的速度也得跟上;多數(shù)據(jù)類型是指數(shù)據(jù)的多樣性,時(shí)下人們上互聯(lián)網(wǎng)不只是看看資訊,同時(shí)也在不斷地產(chǎn)出數(shù)據(jù):上傳照片、上傳視頻、發(fā)微博;另一方面,IT深入工作生活中的各個(gè)角落,各種各樣的傳感器、監(jiān)控器也時(shí)刻不斷產(chǎn)生各種數(shù)據(jù),數(shù)據(jù)的形式已日趨復(fù)雜、多樣了。這就催生了大數(shù)據(jù)技術(shù)的強(qiáng)烈需求。

  雖然如何解決日漸緊迫的大數(shù)據(jù)處理已成了企業(yè)管理信息化、現(xiàn)代化的必然需求,但國(guó)內(nèi)的大數(shù)據(jù)領(lǐng)域到底有多活躍?大數(shù)據(jù)真的如一些廠商所描繪的那么強(qiáng)大、好用,成為每個(gè)企業(yè)所必需的嗎?

  在一片叫好聲中,部分專家和業(yè)內(nèi)人士顯得小心謹(jǐn)慎,甚至不乏非議。一些專家認(rèn)為,除了大量的研討會(huì)和各類公司宣稱進(jìn)軍大數(shù)據(jù)領(lǐng)域的雄心之外,其實(shí)際進(jìn)展至今難見(jiàn)成效。許多企業(yè)CIO認(rèn)為,國(guó)內(nèi)能利用大數(shù)據(jù)背后的價(jià)值的行業(yè)主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業(yè),其他行業(yè)談大數(shù)據(jù)為時(shí)尚早,大數(shù)據(jù)在企業(yè)的應(yīng)用并不是說(shuō)只要開(kāi)放了數(shù)據(jù)、應(yīng)用一些技術(shù)就可以輕易地發(fā)現(xiàn)“金礦”。目前國(guó)內(nèi)大數(shù)據(jù)應(yīng)用似乎正在呈現(xiàn)這樣的狀態(tài):投資人活躍,技術(shù)和服務(wù)供應(yīng)商熱心,媒體高調(diào),而大量應(yīng)用企業(yè)迷惑。

  有人更是批評(píng)“大數(shù)據(jù)是在既有的方案上包裝了一下,實(shí)質(zhì)是新瓶裝舊酒,只不過(guò)更時(shí)髦”,海量數(shù)據(jù)時(shí)代的數(shù)據(jù)應(yīng)用并沒(méi)有給多少企業(yè)帶來(lái)革命性的變化,在 MapReduce(Hadoop中采用的編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算)出現(xiàn)之前,也有企業(yè)能夠輕松地對(duì)數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算了,而 NoSQL 的出現(xiàn)也只是為處理數(shù)據(jù)的方式帶來(lái)了更多選擇罷了,并沒(méi)有革命性、實(shí)質(zhì)性的飛躍。比如,某廠商說(shuō),利用其大數(shù)據(jù)技術(shù),電子商務(wù)網(wǎng)站就能知道“什么地方的人買(mǎi)東西最瘋狂”或是“什么型號(hào)手機(jī)最好賣(mài)”,這就是大數(shù)據(jù)分析的結(jié)果。對(duì)此有專家反駁“難道同樣基于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的BI分析出來(lái)的結(jié)果和基于這個(gè)大數(shù)據(jù)出來(lái)的結(jié)果會(huì)有不同?”

  的確,從某些大數(shù)據(jù)應(yīng)用中能挖掘出新的價(jià)值,但這個(gè)價(jià)值只是附加價(jià)值,沒(méi)有理由去夸大它,更沒(méi)有理由去無(wú)端地想象。大數(shù)據(jù)是機(jī)會(huì),但現(xiàn)階段還只是少數(shù)人的機(jī)會(huì),更多的是巨頭們的商業(yè)謀略。”廈門(mén)一位電子公司CIO也認(rèn)為,“一些企業(yè)所需要的數(shù)據(jù)挖掘,傳統(tǒng)列式數(shù)據(jù)就能很好地處理。與其參加各種口沫橫飛的會(huì)議,還不如和工程師聊聊可以運(yùn)用什么更實(shí)用的工具來(lái)解決具體問(wèn)題。”

  大數(shù)據(jù)當(dāng)立

  BI當(dāng)下?

  讓大數(shù)據(jù)取代BI也是當(dāng)下熱議的話題。實(shí)際上,大數(shù)據(jù)與BI之間的確存在著天然聯(lián)系,但并不是互相替代、排斥的關(guān)系。大數(shù)據(jù)與BI一個(gè)主要區(qū)別在于:與傳統(tǒng)基于事務(wù)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)相比較,其能在BI的基礎(chǔ)上進(jìn)行更大容量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)處理,大數(shù)據(jù)分析不僅關(guān)注結(jié)構(gòu)化的歷史數(shù)據(jù),它們更傾向于去對(duì)Web、社交網(wǎng)絡(luò)、RFID傳感器等非結(jié)構(gòu)化海量數(shù)據(jù)進(jìn)行更好地分析。整體相比BI而言,大數(shù)據(jù)更寬泛。

  以EMC公司的 Greenplum核心產(chǎn)品線為例,它分為Greenplum Database(數(shù)據(jù)倉(cāng)庫(kù))、Greenplum HD(Hadoop分析)和Greenplum DCA(數(shù)據(jù)計(jì)算設(shè)備),后者還是基于高性價(jià)比的工業(yè)標(biāo)準(zhǔn)x86服務(wù)器的MPP(大規(guī)模并行處理)分布式可擴(kuò)展架構(gòu)。這三個(gè)產(chǎn)品歸于一個(gè)產(chǎn)品線也可以看出傳統(tǒng)BI和大數(shù)據(jù)之間的內(nèi)在聯(lián)系。

  誠(chéng)然,海量增長(zhǎng)的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中確實(shí)有值得深入挖掘的價(jià)值,但這并不等于人們就要采用全新的方法、工具來(lái)處理它們。正如需求是漸進(jìn)式的增長(zhǎng)一樣,業(yè)務(wù)的變革也要以漸進(jìn)式為主。

  筆者認(rèn)為,大數(shù)據(jù)的創(chuàng)新性、先進(jìn)性與前瞻性,不容否定,值得肯定,但當(dāng)有人提出“大數(shù)據(jù)當(dāng)立,BI當(dāng)下”之論,就顯得過(guò)分武斷。在如今細(xì)分制勝的時(shí)代,功能并不是越多越好,功能過(guò)多反而顯得累贅,增加無(wú)謂費(fèi)用。Gartner研究公司BI分析師RitaSallam曾表示,“大數(shù)據(jù)讓BI更有價(jià)值和更有利于業(yè)務(wù)發(fā)展。我們總是會(huì)需要看看過(guò)去的數(shù)據(jù),當(dāng)你擁有大數(shù)據(jù)時(shí),你更應(yīng)該這樣做。BI并不會(huì)被大數(shù)據(jù)取代消失,它的作用通過(guò)大數(shù)據(jù)被放大了。至少在相當(dāng)長(zhǎng)的時(shí)期內(nèi),大數(shù)據(jù)還難于取代傳統(tǒng)BI。”

  時(shí)至今日,各種關(guān)于大數(shù)據(jù)與BI軟件誰(shuí)優(yōu)誰(shuí)劣的交鋒仍不斷泛起,對(duì)用戶而言,必須認(rèn)真權(quán)衡,到底利用大數(shù)據(jù)后能給企業(yè)帶來(lái)了多少額外的價(jià)值?這種增加的價(jià)值是否能讓企業(yè)的投入值得?而且更為重要的一點(diǎn)是,是否只要使用大數(shù)據(jù)就一定能夠給企業(yè)帶來(lái)以前不可能實(shí)現(xiàn)的價(jià)值?這些是當(dāng)下用戶們最需要重點(diǎn)考慮的。

分享到: 收藏

專題