首頁 > 新聞 > 國內(nèi) >

華為N8000- Hadoop大數(shù)據(jù)解決方案

--應(yīng)需而變, 融易致遠

2013-03-07 10:48:31   作者:   來源:CTI論壇   評論:0  點擊:


  人人都在談?wù)摯髷?shù)據(jù),但是究竟什么是大數(shù)據(jù)呢?大數(shù)據(jù)主要來源于互聯(lián)網(wǎng)領(lǐng)域和一些垂直行業(yè),數(shù)據(jù)量達到PB級,甚至10PB以上;它需要更高性能、更大吞吐量、更大擴展能力.據(jù)統(tǒng)計,全球80%的數(shù)據(jù)在近兩年生成,平均年增長率超過50%。數(shù)據(jù)正從四面八方、各個領(lǐng)域中產(chǎn)生,變得更繁雜、更龐大、更加多樣性,如果將這些海量數(shù)據(jù)簡單堆加、存儲歸檔,是不能為企業(yè)帶來價值的,反而會增加企業(yè)投資成本。只有完成對大數(shù)據(jù)的分析、價值數(shù)據(jù)提取,才能發(fā)揮大數(shù)據(jù)最大的威力,進一步提高企業(yè)決策水平、改善業(yè)務(wù)模式,從而成為企業(yè)成功的關(guān)鍵。

  Hadoop是一個分布式計算框架,來源于Apache軟件基金會的開源項目,具有良好的并行處理能力、可擴展性和可伸縮性的特點,更適合處理半結(jié)構(gòu)化、非結(jié)構(gòu)化類數(shù)據(jù),是重要的大數(shù)據(jù)計算和分析平臺。Hadoop因此獲得大多數(shù)數(shù)據(jù)分析廠商的關(guān)注和支持,成為當下大數(shù)據(jù)領(lǐng)域的熱點技術(shù)。根據(jù)上述大數(shù)據(jù)的四個特點,系統(tǒng)不僅需要具備超高的性能和超大的存儲空間,還必須將數(shù)據(jù)存儲與數(shù)據(jù)分析相結(jié)合,由此華為N8000-Hadoop大數(shù)據(jù)解決方案應(yīng)運而生。該方案借助華為N8000系統(tǒng)先進的集群架構(gòu)和企業(yè)級存儲功能,集成Hadoop計算框架,提供從密集型數(shù)值計算和數(shù)據(jù)存儲中實時獲取的分析處理結(jié)果,幫助客戶提高決策和運營效率,簡化管理并降低組網(wǎng)成本。華為N8000-Hadoop大數(shù)據(jù)解決方案有以下特性和優(yōu)勢:

  1. 數(shù)據(jù)互通,承載多業(yè)務(wù)

  首先,我們先分析一下當前集群NAS應(yīng)用Hadoop的典型數(shù)據(jù)處理流程。數(shù)據(jù)通過集群NAS的NFS/CIFS等NAS協(xié)議完成數(shù)據(jù)存取操作,而Hadoop是架構(gòu)在HDFS協(xié)議之上,這意味著集群NAS的數(shù)據(jù)不能被Hadoop計算框架直接使用,必須通過異構(gòu)數(shù)據(jù)源之間進行數(shù)據(jù)交換的工具,將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取到中間層進行轉(zhuǎn)換,最后加載到數(shù)據(jù)倉庫中,成為Hadoop計算框架能夠分析處理的數(shù)據(jù)。而華為N8000-Hadoop方案提出一種創(chuàng)新的思路,消除了這個桎梏,實現(xiàn)在不同的數(shù)據(jù)處理系統(tǒng)之間進行數(shù)據(jù)交換,在同一個存儲空間中,數(shù)據(jù)可以自由流通,所見即所得,并且不需要改變傳統(tǒng)NAS用戶使用習慣和組網(wǎng)方式,無縫對接Hadoop計算框架,實現(xiàn)數(shù)值計算、數(shù)據(jù)存儲以及即時的數(shù)據(jù)分析和事務(wù)處理等多業(yè)務(wù)的承載。

  2. 提高存儲利用率,降低TCO

  使用開源Hadoop的默認配置,一種典型的犧牲存儲空間換取數(shù)據(jù)可靠性和讀寫效率的方式,其最大存儲空間利用率是33%。而華為N8000-Hadoop大數(shù)據(jù)解決方案充分利用了N8000產(chǎn)品企業(yè)級存儲功能特性的優(yōu)勢,通過選擇各種RAID級別技術(shù)來實現(xiàn)不同級別的冗余、錯誤恢復和數(shù)據(jù)保護功能,存儲空間利用率可達80%,從而降低系統(tǒng)總體擁有成本TCO。

  3. 企業(yè)級Hadoop整體解決方案

  在使用開源Hadoop時的第一個問題是如何為Hadoop集群選擇合適的硬件,這需要考慮各種影響因素,往往根據(jù)使用經(jīng)驗來決定配置,這使得構(gòu)建系統(tǒng)存在很大不確定性。華為N8000-Hadoop大數(shù)據(jù)解決方案可為一個給定的工作負載選擇合理的硬件配置來實現(xiàn)性能和經(jīng)濟的最佳平衡。華為N8000集群系統(tǒng)作為企業(yè)級存儲產(chǎn)品,采用多節(jié)點全Active集群技術(shù),所有部件均為冗余設(shè)計,無單點故障,系統(tǒng)提供數(shù)據(jù)保險箱技術(shù)和文件系統(tǒng)鏡像等軟件技術(shù)進一步提高系統(tǒng)可靠性。

  4. 海量小文件處理性能

  目前,很多用戶開始利用Hadoop處理海量數(shù)據(jù),并取得很好的效果,但隨著數(shù)據(jù)量增加,尤其是小文件數(shù)目的增多,逐漸發(fā)現(xiàn)Hadoop能夠高效自如地處理大文件,卻在處理海量小文件時由于Name Node占有率高而導致訪問效率低的問題。而華為N8000-Hadoop方案是基于共享集群文件系統(tǒng),消除了Name Node的限制,具有多任務(wù)處理的功能,元數(shù)據(jù)可被分段管理,不會出現(xiàn)性能瓶頸,從而提高了對海量小文件處理的效率。

  大數(shù)據(jù)的出現(xiàn),我們不僅要思考如何解決數(shù)據(jù)量級劇增帶來的問題,更重要的是如何從大數(shù)據(jù)挖掘出商業(yè)價值。華為N8000-Hadoop方案以業(yè)界性能和容量雙雙領(lǐng)先的企業(yè)級集群NAS存儲系統(tǒng)為基石,優(yōu)化Hadoop計算框架,幫助客戶從紛繁復雜的數(shù)據(jù)中獲取信息,以支持更快的決策。

分享到: 收藏

專題