華為N8000- Hadoop大數(shù)據(jù)解決方案

--應(yīng)需而變, 融易致遠

2013-03-07 10:48:31 作者：來源：CTI論壇評論：0 　點擊：

　　人人都在談?wù)摯髷?shù)據(jù),但是究竟什么是大數(shù)據(jù)呢？大數(shù)據(jù)主要來源于互聯(lián)網(wǎng)領(lǐng)域和一些垂直行業(yè)，數(shù)據(jù)量達到PB級，甚至10PB以上；它需要更高性能、更大吞吐量、更大擴展能力.據(jù)統(tǒng)計，全球80%的數(shù)據(jù)在近兩年生成，平均年增長率超過50%。數(shù)據(jù)正從四面八方、各個領(lǐng)域中產(chǎn)生，變得更繁雜、更龐大、更加多樣性，如果將這些海量數(shù)據(jù)簡單堆加、存儲歸檔，是不能為企業(yè)帶來價值的，反而會增加企業(yè)投資成本。只有完成對大數(shù)據(jù)的分析、價值數(shù)據(jù)提取，才能發(fā)揮大數(shù)據(jù)最大的威力，進一步提高企業(yè)決策水平、改善業(yè)務(wù)模式，從而成為企業(yè)成功的關(guān)鍵。

　　Hadoop是一個分布式計算框架，來源于Apache軟件基金會的開源項目，具有良好的并行處理能力、可擴展性和可伸縮性的特點，更適合處理半結(jié)構(gòu)化、非結(jié)構(gòu)化類數(shù)據(jù)，是重要的大數(shù)據(jù)計算和分析平臺。Hadoop因此獲得大多數(shù)數(shù)據(jù)分析廠商的關(guān)注和支持，成為當下大數(shù)據(jù)領(lǐng)域的熱點技術(shù)。根據(jù)上述大數(shù)據(jù)的四個特點，系統(tǒng)不僅需要具備超高的性能和超大的存儲空間，還必須將數(shù)據(jù)存儲與數(shù)據(jù)分析相結(jié)合，由此華為N8000-Hadoop大數(shù)據(jù)解決方案應(yīng)運而生。該方案借助華為N8000系統(tǒng)先進的集群架構(gòu)和企業(yè)級存儲功能，集成Hadoop計算框架，提供從密集型數(shù)值計算和數(shù)據(jù)存儲中實時獲取的分析處理結(jié)果，幫助客戶提高決策和運營效率，簡化管理并降低組網(wǎng)成本。華為N8000-Hadoop大數(shù)據(jù)解決方案有以下特性和優(yōu)勢：

　　1. 數(shù)據(jù)互通，承載多業(yè)務(wù)

　　首先，我們先分析一下當前集群NAS應(yīng)用Hadoop的典型數(shù)據(jù)處理流程。數(shù)據(jù)通過集群NAS的NFS/CIFS等NAS協(xié)議完成數(shù)據(jù)存取操作，而Hadoop是架構(gòu)在HDFS協(xié)議之上，這意味著集群NAS的數(shù)據(jù)不能被Hadoop計算框架直接使用，必須通過異構(gòu)數(shù)據(jù)源之間進行數(shù)據(jù)交換的工具，將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取到中間層進行轉(zhuǎn)換，最后加載到數(shù)據(jù)倉庫中，成為Hadoop計算框架能夠分析處理的數(shù)據(jù)。而華為N8000-Hadoop方案提出一種創(chuàng)新的思路，消除了這個桎梏，實現(xiàn)在不同的數(shù)據(jù)處理系統(tǒng)之間進行數(shù)據(jù)交換，在同一個存儲空間中，數(shù)據(jù)可以自由流通，所見即所得，并且不需要改變傳統(tǒng)NAS用戶使用習慣和組網(wǎng)方式，無縫對接Hadoop計算框架，實現(xiàn)數(shù)值計算、數(shù)據(jù)存儲以及即時的數(shù)據(jù)分析和事務(wù)處理等多業(yè)務(wù)的承載。

　　2. 提高存儲利用率，降低TCO

　　使用開源Hadoop的默認配置，一種典型的犧牲存儲空間換取數(shù)據(jù)可靠性和讀寫效率的方式，其最大存儲空間利用率是33%。而華為N8000-Hadoop大數(shù)據(jù)解決方案充分利用了N8000產(chǎn)品企業(yè)級存儲功能特性的優(yōu)勢，通過選擇各種RAID級別技術(shù)來實現(xiàn)不同級別的冗余、錯誤恢復和數(shù)據(jù)保護功能，存儲空間利用率可達80%，從而降低系統(tǒng)總體擁有成本TCO。

　　3. 企業(yè)級Hadoop整體解決方案

　　在使用開源Hadoop時的第一個問題是如何為Hadoop集群選擇合適的硬件，這需要考慮各種影響因素，往往根據(jù)使用經(jīng)驗來決定配置，這使得構(gòu)建系統(tǒng)存在很大不確定性。華為N8000-Hadoop大數(shù)據(jù)解決方案可為一個給定的工作負載選擇合理的硬件配置來實現(xiàn)性能和經(jīng)濟的最佳平衡。華為N8000集群系統(tǒng)作為企業(yè)級存儲產(chǎn)品，采用多節(jié)點全Active集群技術(shù)，所有部件均為冗余設(shè)計，無單點故障，系統(tǒng)提供數(shù)據(jù)保險箱技術(shù)和文件系統(tǒng)鏡像等軟件技術(shù)進一步提高系統(tǒng)可靠性。

　　4. 海量小文件處理性能

　　目前，很多用戶開始利用Hadoop處理海量數(shù)據(jù)，并取得很好的效果，但隨著數(shù)據(jù)量增加，尤其是小文件數(shù)目的增多，逐漸發(fā)現(xiàn)Hadoop能夠高效自如地處理大文件，卻在處理海量小文件時由于Name Node占有率高而導致訪問效率低的問題。而華為N8000-Hadoop方案是基于共享集群文件系統(tǒng)，消除了Name Node的限制，具有多任務(wù)處理的功能，元數(shù)據(jù)可被分段管理，不會出現(xiàn)性能瓶頸，從而提高了對海量小文件處理的效率。

　　大數(shù)據(jù)的出現(xiàn)，我們不僅要思考如何解決數(shù)據(jù)量級劇增帶來的問題，更重要的是如何從大數(shù)據(jù)挖掘出商業(yè)價值。華為N8000-Hadoop方案以業(yè)界性能和容量雙雙領(lǐng)先的企業(yè)級集群NAS存儲系統(tǒng)為基石，優(yōu)化Hadoop計算框架，幫助客戶從紛繁復雜的數(shù)據(jù)中獲取信息，以支持更快的決策。