您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

數(shù)據(jù)湖是什么?它會持續(xù)"溫而不火"還是即將"破繭成蝶"?

2019-08-08 09:40:15   作者:張彥龍   來源:CTI論壇   評論:0  點擊:


  一、概述
  自2014年開始,data lake(數(shù)據(jù)湖)這個概念就出現(xiàn)了,一直持續(xù)發(fā)展,雖然各大云商也相繼推出了自己的產(chǎn)品,如Amazon AWS、Google Cloud、Microsoft Azure等,但數(shù)據(jù)湖的發(fā)展可以用“不溫不火”來形容。
  這篇文章,帶大家一探data lake為何物,為何有機會發(fā)展,而又鵝行鴨步背后有何邏輯!
  Data lake到底是什么?面對如此簡單的一問,江湖各家大廠家卻是各執(zhí)一詞,撲朔迷離。各家的思路基本上就是把已有的基礎(chǔ)產(chǎn)品再包裝,形成非面向業(yè)務(wù)場景的松散解決方案。
  如Amazon AWS把data lake包裝為: S3存儲、數(shù)據(jù)目錄、數(shù)據(jù)冷備;并輔之以數(shù)據(jù)移動工具、數(shù)據(jù)分析工具、機器學(xué)習(xí)工具。
  而部分廠商更愿意把它定義為hadoop本身…
  既然沒有明確的功能定義,從理論層面探索data lake就變的沒什么實際意義了,這也是市場在這上面踟躕不前的一個原因,這玩意到底是啥都說不清,憑什么給你錢?
  那咱們就轉(zhuǎn)換下思路,追本溯源,從大數(shù)據(jù)的發(fā)展歷程來看下data lake的產(chǎn)生的必要性、以及有無壯大的原動力。
  二、回首傳統(tǒng)數(shù)據(jù)倉庫(Data warehouse)
  從業(yè)務(wù)流程上,傳統(tǒng)data Warehouse是從數(shù)據(jù)需求(問題)角度出發(fā),甄選業(yè)務(wù)場景數(shù)據(jù)源、按照數(shù)倉庫范式清洗與建模、并按照主題還原為可信的業(yè)務(wù)過程后,給業(yè)務(wù)方重復(fù)使用,也就是所謂的數(shù)據(jù)集市(data Mart)。
  總結(jié)下來傳統(tǒng)數(shù)倉的理念還是管控:管控數(shù)倉架構(gòu)、管控數(shù)據(jù)流向、管控業(yè)務(wù)場景。
  從data Warehouse數(shù)據(jù)流動角度看,整個流程如下:
  三、傳統(tǒng)數(shù)據(jù)倉庫面臨的挑戰(zhàn)
  隨著公司快速發(fā)展,面臨的幾個矛盾
  data mart模式導(dǎo)致的煙囪式建設(shè)與數(shù)據(jù)需跨業(yè)務(wù)線廣泛連接之間的矛盾
  數(shù)據(jù)ETL、數(shù)據(jù)建模工作的響應(yīng)速度與數(shù)據(jù)反哺業(yè)務(wù)迭代創(chuàng)新之間的矛盾
  數(shù)據(jù)賦能與業(yè)務(wù)場景探索的脫節(jié)
  通過上面的闡述,稍作抽象,即可發(fā)現(xiàn)一個有趣的現(xiàn)象:
  工作職責(zé)上, 更多數(shù)據(jù)工作正在從IT向DS(數(shù)據(jù)科學(xué)家,下同)過渡,IT傾向于與DS解耦
  工作方式上,在 數(shù)據(jù)從輔助決策向驅(qū)動決策升級的過程中,工作模式從"提出問題(DS)-解決問題(IT)"逐步向"場景化的泛問題-分析數(shù)據(jù)提出具體問題-分析數(shù)據(jù)-解決具體問題"的工作方式轉(zhuǎn)換
  在這個背景下,為了解決這些問題,業(yè)界發(fā)起了對data lake使命和架構(gòu)的的探討…
  四、什么是Data lake
  注:為了維持定義的精確性,下面幾段簡單的英文就不做翻譯了,敬請諒解 :)
  從Amazon AWS得到的解釋
  A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
  從維基百科得到的解釋
  A data lake  is a system or repository of data stored in its natural format,usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, analytics and machine learning.
  A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video).
  受到的質(zhì)疑與挑戰(zhàn)
  One criticism about the data lake is that the  concept is fuzzy and arbitrary. It refers to any tool or data management practice that does not fit into the traditional data warehouse architecture.
  簡單而言,data lake就是有一個中心化的存儲,所有的數(shù)據(jù)以它本來的形式(來自RMDB的結(jié)構(gòu)化數(shù)據(jù)、CSV/JSON/XML等半結(jié)構(gòu)化數(shù)據(jù)、documents等非結(jié)構(gòu)化數(shù)據(jù)、甚至image/audio等二進(jìn)制數(shù)據(jù))都放到這個存儲里, 進(jìn)而為后續(xù)的報表、可視化分析、實時分析、以至于機器學(xué)習(xí)提供數(shù)據(jù)支撐。
  五、Data lake架構(gòu)
  為了應(yīng)對傳統(tǒng)數(shù)據(jù)倉庫面臨的問題,業(yè)界給出了不同的解決方案,下面的軸輻式(Hub and Spoke)架構(gòu)也是其中之一:
  HUB(軸)要解決的問題:
  • 統(tǒng)一存儲:Centralized, singular, schema-less data store with raw (as-is) data as well as massaged data
  • 索引與檢索數(shù)據(jù):Ability to map data across sources and provide visibility and security to users, Catalog to find and retrieve data
  • 數(shù)據(jù)安全:Ability to manage security, permissions and data masking
  • 自助服務(wù):Supports self-provisioning of data management, and analytic tools without IT intervention
  SPOKE(輻條)需要解決的問題:
  • 支持業(yè)務(wù)團(tuán)隊以自助服務(wù)的形式處理數(shù)據(jù)的可視化、數(shù)據(jù)探索、數(shù)據(jù)協(xié)作等業(yè)務(wù)問題
  • IT團(tuán)隊提供相應(yīng)工具鏈、安全沙箱、標(biāo)準(zhǔn)化數(shù)據(jù)服務(wù)等基礎(chǔ)設(shè)施
  六、數(shù)據(jù)架構(gòu)的演進(jìn)趨勢
  大數(shù)據(jù)為了賦能業(yè)務(wù),從數(shù)據(jù)基礎(chǔ)建設(shè)、業(yè)務(wù)快速迭代兩個角度來看,數(shù)據(jù)和組織架構(gòu)正以下面的方式演進(jìn):
  特別說明:上圖并非說IT/ETL的需求變少了,而是為了說明DS的業(yè)務(wù)需求和能力需求變的更多和更強了。
  七、一道鴻溝
  這么一弄,問題就來了,即使一個良好定義的數(shù)據(jù)倉庫,在數(shù)據(jù)檢索、理解上都存在相當(dāng)?shù)碾y度,這種原汁原味存放原始(非結(jié)構(gòu)化)數(shù)據(jù)的地方,用戶如何檢索數(shù)據(jù)呢?怎么理解這些原始數(shù)據(jù)的業(yè)務(wù)含義呢?隨著數(shù)據(jù)量的膨脹,這個問題會愈演愈烈,直到變成數(shù)據(jù)沼澤。
  data lake絕不是一個簡單的把原始數(shù)據(jù)以它原有的樣子放到一起,用戶就可以happy的進(jìn)行可視化、洞察和分析的,因為這和他們需要的這些服務(wù)之間,有一道不可逾越的鴻溝。這道鴻溝需要良好定義的data lake架構(gòu)來解決。
  這個良好定義的data lake架構(gòu),目前來看就是“數(shù)據(jù)治理”,我們需要把重心從系統(tǒng)建設(shè)提升到數(shù)據(jù)建設(shè),在“數(shù)據(jù)治理”的基礎(chǔ)上,為上層業(yè)務(wù)提供自助化的服務(wù)。因此我們還有如下的幾點收獲:
  • data lake與data warehouse的理念不同,相對于data Warehouse的注重數(shù)據(jù)管控,data lake更傾向于數(shù)據(jù)服務(wù)
  • data lake對數(shù)據(jù)從業(yè)人員的素質(zhì)要求更高;對數(shù)據(jù)系統(tǒng)的要求更高,要防止數(shù)據(jù)湖變數(shù)據(jù)沼澤 ,此時就需要借助現(xiàn)代化的數(shù)據(jù)治理能力
  • data lake與data warehouse不是互斥的。當(dāng)前條件下,data lake并不能完全替代warehouse。尤其是對于已經(jīng)使用data warehouse的公司,這種情況下warehouse可以作為data lake的一個數(shù)據(jù)來源
  八、總結(jié)
  傳統(tǒng)的數(shù)據(jù)倉庫模式,確實在快速發(fā)展的企業(yè)面前顯的力不從心。
  data lake以數(shù)據(jù)治理為基礎(chǔ)、一套自助服務(wù)為抓手的工具鏈來賦能業(yè)務(wù)發(fā)展,這套理論是否是最適合現(xiàn)代企業(yè)(尤其是快速創(chuàng)新的企業(yè))的,在一定程度上可以,但還需要持續(xù)驗證。但是有一點值得注意,業(yè)界在data lake的嘗試上一般都會忽視數(shù)據(jù)治理的重要性,這是很危險的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對data lake持續(xù)觀望的愿意之一。
  另外,現(xiàn)在崛起的數(shù)據(jù)中臺,它完全以數(shù)據(jù)治理、數(shù)據(jù)服務(wù)為核心理念而建,并比data lake更貼近業(yè)務(wù)場景,這也是數(shù)據(jù)中臺方興未艾的一個原因。
  本文轉(zhuǎn)載自公眾號:數(shù)據(jù)老鐵匠
 
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會員企業(yè)