您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

華為王雷:超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0,新以太釋放新算力

2021-06-22 09:37:37   作者:王雷 華為數(shù)據(jù)通信產(chǎn)品線 數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域總裁   來源:CTI論壇   評論:0  點擊:


  導(dǎo)言
  工業(yè)時代,電力是機械文明的基石,而邁入數(shù)字時代的今天,算力正在成為智能世界的底座。數(shù)據(jù)通過多場景聯(lián)接匯聚到數(shù)據(jù)中心進行分析和應(yīng)用,驅(qū)動產(chǎn)業(yè)升級與商業(yè)模式創(chuàng)新。作為承載數(shù)據(jù)存儲、分析、計算的唯一載體,數(shù)據(jù)中心貫穿了數(shù)據(jù)從生產(chǎn)要素到商業(yè)價值轉(zhuǎn)換的全流程。數(shù)據(jù)中心算力成為新的生產(chǎn)力,數(shù)據(jù)中心量綱從原有的資源規(guī)模向算力規(guī)模轉(zhuǎn)變。
  本文作者
  王雷
  華為數(shù)據(jù)通信產(chǎn)品線
  數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域總裁
  算力的關(guān)鍵在于數(shù)據(jù)流通與處理效率,融合是必然訴求
  數(shù)據(jù)中心算力是服務(wù)器對數(shù)據(jù)進行處理后實現(xiàn)結(jié)果輸出的能力,是計算、存儲、網(wǎng)絡(luò)三大資源協(xié)同能力的綜合衡量指標(biāo)。作為聯(lián)接數(shù)據(jù)中心各類資源的大動脈,數(shù)據(jù)中心網(wǎng)絡(luò)承載著保障數(shù)據(jù)高效流通的職責(zé)。
  
  根據(jù)聯(lián)接資源的不同,數(shù)據(jù)中心網(wǎng)絡(luò)分為:
  • 通用計算網(wǎng)絡(luò):與外部用戶終端對接提供服務(wù);
  • 數(shù)據(jù)存儲網(wǎng)絡(luò):聯(lián)接存儲節(jié)點,支撐數(shù)據(jù)存儲、讀寫與備份;
  • 高性能計算網(wǎng)絡(luò):聯(lián)接CPU/GPU服務(wù)器,支撐高性能計算或AI訓(xùn)練。
  在數(shù)據(jù)流通和處理過程中,這三張網(wǎng)絡(luò)需要深度協(xié)作,保證算力的最大化釋放。通用計算網(wǎng)絡(luò)普遍采用開放的以太協(xié)議,而傳統(tǒng)集中式存儲區(qū)以及高性能計算區(qū)則較多采用封閉的Fibre Channel(FC)以及InfiniBand專網(wǎng)技術(shù)。三套網(wǎng)絡(luò)協(xié)議各異、架構(gòu)割裂,給數(shù)據(jù)跨節(jié)點和資源流通帶來阻礙。融合成為算力提升的必然要求。
  三大變革驅(qū)動數(shù)據(jù)中心網(wǎng)絡(luò)全以太化,帶來融合契機
  數(shù)據(jù)中心網(wǎng)絡(luò)服務(wù)于云應(yīng)用、計算資源與存儲資源。三大服務(wù)對象的變革正在驅(qū)動數(shù)據(jù)中心網(wǎng)絡(luò)向以太化演進:
  云化升級:
  云化加速浪潮之下,企業(yè)IT架構(gòu)從本地集中式向云端分布式、甚至多云分布式演進。開放以太架構(gòu)天然可被云靈活調(diào)用,具備良好的互通性、彈性、敏捷性以及多租戶安全能力,已經(jīng)成為通用計算網(wǎng)絡(luò)的壓倒性協(xié)議。
  存儲全閃存化:
  隨著機械硬盤向全閃存升級,存儲介質(zhì)的讀寫性能提升了百倍。傳統(tǒng)FC最高32G/64G帶寬,不滿足全閃存高吞吐的需求,帶寬高達400GE的以太網(wǎng)成為新一代存儲網(wǎng)絡(luò)的事實標(biāo)準(zhǔn)。
  計算單元去PCIe:
  業(yè)界CPU/GPU廠商正在通過去PCIe總線突破總線的速率瓶頸,直接出以太口來提供更高算力。
  
  在三大變革的驅(qū)動下,以太化正在向縱深推進。全球HPC TOP500統(tǒng)計數(shù)據(jù)表明,2016年起以太已經(jīng)超越IB成為主流。2019年,計算機行業(yè)巨頭Intel放棄了源于InfiniBand的Omni-Path高速互連網(wǎng)絡(luò)技術(shù),繼而在2021年推出了面向HPC場景的以太網(wǎng)交換機,同時HPC套件針對RoCE進行優(yōu)化升級。隨著全以太化的網(wǎng)絡(luò)技術(shù)的快速發(fā)展,相關(guān)測試規(guī)范與標(biāo)準(zhǔn)陸續(xù)出臺,融合時間窗正式開啟。
  融合之路并非坦途,全以太化數(shù)據(jù)中心網(wǎng)絡(luò)面臨三大挑戰(zhàn)
  雖然業(yè)界普遍看好全以太化的趨勢,但要實現(xiàn)從網(wǎng)絡(luò)性能過硬到管理配套成熟并非易事。數(shù)據(jù)中心網(wǎng)絡(luò)全以太化面臨三大挑戰(zhàn):
  網(wǎng)絡(luò)丟包挑戰(zhàn):
  以太網(wǎng)天然有丟包,無法滿足通信密集型HPC、高端存儲等場景下極端性能要求。
  管理效率挑戰(zhàn):
  近年來全球數(shù)據(jù)中心普遍采用集約化規(guī);慕ㄔO(shè)原則,中小型數(shù)據(jù)中心被大型、超大型數(shù)據(jù)中心替代。隨著管理規(guī)模的擴張,傳統(tǒng)分散的多工具多平臺的管理模式成為網(wǎng)絡(luò)運維的效率瓶頸。
  多云多場景挑戰(zhàn):
  一方面,為了滿足核心業(yè)務(wù)穩(wěn)定的同時快速響應(yīng)變化,企業(yè)數(shù)據(jù)中心基礎(chǔ)設(shè)施通常使用公有云-敏態(tài)業(yè)務(wù)與私有云-穩(wěn)態(tài)業(yè)務(wù)雙架構(gòu);另一方面,業(yè)務(wù)場景極大豐富,不僅行業(yè)間網(wǎng)絡(luò)需求迥異,同一行業(yè)內(nèi)不同業(yè)務(wù)場景下也有較大的不同。復(fù)雜的業(yè)務(wù)場景對網(wǎng)絡(luò)的開放性和服務(wù)化能力提出更高的要求。
  華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0,實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)三層融合
  為應(yīng)對全以太化網(wǎng)絡(luò)三大挑戰(zhàn),華為推出超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,核心部件包括CloudEngine數(shù)據(jù)中心交換機與iMaster NCE網(wǎng)絡(luò)智能管控系統(tǒng);谌龑尤诤霞軜(gòu),CloudFabric 3.0可最大化保障數(shù)據(jù)的流通和處理效率,充分釋放數(shù)據(jù)中心算力:
  全無損以太架構(gòu):
  三張網(wǎng)統(tǒng)一為0丟包以太網(wǎng)架構(gòu),實現(xiàn)流量承載融合,打破異構(gòu)協(xié)議限制;
  全生命周期自動管理:
  實現(xiàn)網(wǎng)絡(luò)管控析融合,打破多工具多平臺管理數(shù)據(jù)割裂的限制;
  全場景服務(wù)化能力:
  實現(xiàn)多業(yè)務(wù)場景融合,打破跨區(qū)域跨場景算力割裂的限制。
  
  全以太HPC網(wǎng)絡(luò),100%釋放算力
  傳統(tǒng)以太網(wǎng)丟包帶來性能瓶頸,0.1%的丟包會導(dǎo)致50%的算力損失。40多年來業(yè)界專家探索了很多路徑解決以太網(wǎng)丟包,但無一例外都失敗了:有通過流控反壓來控制流量發(fā)送速度,但粗暴的反壓機制會頻繁停發(fā)報文,導(dǎo)致吞吐量極低;在網(wǎng)絡(luò)應(yīng)用流量越來越復(fù)雜的今天,控速時機也很難把握。
  華為創(chuàng)造性地將智能無損算法iLossless-DCN引入到網(wǎng)絡(luò)聯(lián)接中來,用算法代替專家經(jīng)驗實現(xiàn)實時精準(zhǔn)控速,保證網(wǎng)絡(luò)0丟包,實現(xiàn)規(guī)模不變,算力翻番。
  全以太存儲網(wǎng)絡(luò),存儲性能提升87%
  對于存儲網(wǎng)絡(luò),金融的雙活數(shù)據(jù)中心場景性能要求最為嚴(yán)苛。同城數(shù)據(jù)中心之間的距離一般在30公里到70公里不等,由于長距光纖數(shù)據(jù)傳輸存在靜態(tài)時延(5μs/公里),距離越長時延越大,與短距場景相比時延增長了百倍,流控復(fù)雜度指數(shù)級增加。
  為此,華為推出長距無損iLossless-DCI算法,在短距無損的基礎(chǔ)上增加了距離變量,基于大數(shù)據(jù)分析提前應(yīng)對流量變化,最大可實現(xiàn)100GE鏈路70公里無損傳輸,跨數(shù)據(jù)中心鏈路較FC網(wǎng)絡(luò)可減少90%。在DC內(nèi)和跨DC的同等距離場景下,IOPS較FC網(wǎng)絡(luò)可提升87%,時延降低42%。
  全生命周期自動化,業(yè)務(wù)秒級部署與1-3-5智能運維
  針對業(yè)界SDN“設(shè)計校驗靠人工,配置下發(fā)才自動”的半自動化運維模式,華為將數(shù)字孿生方法論引入網(wǎng)絡(luò)管理領(lǐng)域,實現(xiàn)建全生命周期的自動化。
  基于網(wǎng)絡(luò)數(shù)字建模,可綜合評估400+影響網(wǎng)絡(luò)設(shè)計的因子,可推薦最優(yōu)網(wǎng)絡(luò)設(shè)計方案并實現(xiàn)配置變更的秒級校驗。
  基于網(wǎng)絡(luò)知識圖譜,可以實現(xiàn)故障1分鐘感知,3分鐘定位和5分鐘修復(fù)。
  通過大數(shù)據(jù)挖掘與建模,識別網(wǎng)絡(luò)對象與對象間的關(guān)聯(lián)關(guān)系與故障擴散規(guī)律,感知90%潛在風(fēng)險。
  全場景服務(wù)化體驗,跨云業(yè)務(wù)部署從月到天
  多云場景下網(wǎng)絡(luò)異構(gòu)成為常態(tài),多廠商設(shè)備往往配套多種控制器。一方面,當(dāng)跨云業(yè)務(wù)變更時,需求要分解到多個控制器;如果控制器能力不滿足,則需要依賴原廠商落入版本開發(fā),周期在3~6個月不等。另一方面,企業(yè)云管平臺需要同時對接多個控制器,適配工作量巨大。南向和北向的多接口模式造成跨云網(wǎng)絡(luò)部署動輒耗時數(shù)月,成為算力跨區(qū)流通的瓶頸。
  為此,華為定義統(tǒng)一的設(shè)備網(wǎng)元模型并構(gòu)筑開放的南向框架,可實現(xiàn)跨廠商設(shè)備的統(tǒng)一管理以及設(shè)備驅(qū)動程序的動態(tài)加載。同時,CloudFabric 3.0北向可提供上千種豐富的網(wǎng)絡(luò)API服務(wù),實現(xiàn)云管平臺側(cè)靈活網(wǎng)絡(luò)編排,業(yè)務(wù)上線周期從數(shù)月縮短至一周。
  全新CloudFabric 3.0,新以太釋放新算力
  數(shù)據(jù)中心集合了極其豐富的軟硬件資源,從芯片到服務(wù)器,從存儲設(shè)備到網(wǎng)絡(luò)設(shè)施,從平臺軟件到應(yīng)用軟件,不一而足。要構(gòu)建強大算力,各類資源需要高度協(xié)同,深度融合。作為融合道路上的開拓者,華為推出超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,是對CloudFabric 2.0中解決方案的無損以太和自動駕駛網(wǎng)絡(luò)兩大能力在全以太趨勢下的擴展與增強。
  基于三層融合架構(gòu),超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案可助力數(shù)據(jù)高效流通與處理,100%釋放算力,為數(shù)字經(jīng)濟和企業(yè)數(shù)字化轉(zhuǎn)型構(gòu)筑堅實的算力底座。
 
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)