您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

DCN 學(xué)院派丨智能無損DCN,釋放AI算力巔峰

2020-03-27 16:28:35   作者:王 雷 | 華為數(shù)據(jù)中心網(wǎng)絡(luò)總裁   來源:CTI論壇   評論:0  點擊:


  人類社會正在進入數(shù)字經(jīng)濟增長周期。根據(jù)華為GCI調(diào)研結(jié)論,數(shù)字經(jīng)濟的增長率是全球經(jīng)濟增長率的2.5倍,數(shù)字經(jīng)濟的投資收益率為非數(shù)字經(jīng)濟的6.7倍,當(dāng)數(shù)據(jù)成為驅(qū)動經(jīng)濟增長的核心生產(chǎn)要素,誰掌握領(lǐng)先“數(shù)據(jù)基礎(chǔ)設(shè)施”才能贏得未來!我們知道,數(shù)據(jù)流動起來才能產(chǎn)生價值,而數(shù)據(jù)中心網(wǎng)絡(luò)就是數(shù)據(jù)流動的管道。那么,什么樣的數(shù)據(jù)中心網(wǎng)絡(luò)才能讓數(shù)據(jù)高效地流動起來,這就是本文的出發(fā)點。
  企業(yè)數(shù)字化轉(zhuǎn)型升級
  AI點石成金
  人類社會的發(fā)展在經(jīng)歷了農(nóng)業(yè)時代、工業(yè)時代后,隨著信息化技術(shù)的發(fā)展,終于迎來了數(shù)字經(jīng)濟時代。據(jù)Gartner調(diào)研,75%的大型企業(yè)已經(jīng)將數(shù)字化轉(zhuǎn)型作為企業(yè)核心戰(zhàn)略。與農(nóng)業(yè)經(jīng)濟關(guān)注土地和勞動,工業(yè)經(jīng)濟關(guān)注資本和技術(shù)截然不同,數(shù)字經(jīng)濟的核心生產(chǎn)要素已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)和智能。企業(yè)數(shù)字化轉(zhuǎn)型過程中產(chǎn)生大量的數(shù)據(jù),已經(jīng)成為企業(yè)核心資產(chǎn)的一部分,然而數(shù)據(jù)本身不是目的,知識和智慧才是永恒的價值。通過AI從數(shù)據(jù)中挖掘智慧,實現(xiàn)數(shù)據(jù)的商業(yè)價值變現(xiàn),成為當(dāng)前企業(yè)數(shù)字化轉(zhuǎn)型的主題。AI成為企業(yè)重塑商業(yè)模式、提升客戶體驗和開創(chuàng)未來的關(guān)鍵推動力。+AI,標(biāo)志著企業(yè)數(shù)字化轉(zhuǎn)型進入了智能化新階段。
  過去的幾年來企業(yè)對AI的采用率爆發(fā)式增長,據(jù)華為GIV(Global Industry Vision)預(yù)測,到2025年大企業(yè)對AI的采用率將達到97%。作為企業(yè)數(shù)據(jù)金礦的煉金術(shù),AI點石成金,成為企業(yè)數(shù)字化轉(zhuǎn)型到智能化升級成敗的關(guān)鍵。AI技術(shù)的大量使用,驅(qū)動企業(yè)數(shù)據(jù)中心使命發(fā)生顛覆性變革。
  企業(yè)數(shù)據(jù)中心邁入AI時代
  釋放AI算力是關(guān)鍵
  企業(yè)智能化升級驅(qū)動數(shù)據(jù)中心從云時代邁入了AI時代。相比而言,云數(shù)據(jù)中心更像是個業(yè)務(wù)支撐中心,以應(yīng)用為中心,通過云平臺實現(xiàn)IT資源的快速發(fā)放。而AI數(shù)據(jù)中心在云數(shù)據(jù)中心基礎(chǔ)上真正演進成為商業(yè)價值中心,以數(shù)據(jù)為中心,聚焦于如何基于AI對數(shù)據(jù)進行高效處理。
  AI驅(qū)動DC重構(gòu)
  隨著數(shù)據(jù)中心AI時代到來,算力作為AI三大關(guān)鍵要素之一,需求更加旺盛和多樣化。算力貴、算力不足,已經(jīng)成為時代挑戰(zhàn),更高算力的GPU、AI芯片相繼涌現(xiàn)。而另一方面,由于網(wǎng)絡(luò)丟包的原因?qū)е掳嘿F的算力在實際應(yīng)用中不能有效的發(fā)揮。如果說衡量一個云數(shù)據(jù)中心的關(guān)鍵指標(biāo)是業(yè)務(wù)發(fā)放的效率,那么衡量AI數(shù)據(jù)中心的關(guān)鍵指標(biāo)就是AI運行效率。
  如何提升AI數(shù)據(jù)中心的運行效率?
  充足AI算力是前提。我們知道,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法突破引爆了新一輪的AI浪潮,而深度學(xué)習(xí)需要到巨大的算力支撐,比如一次語音識別的AI訓(xùn)練涉及到20E(1E=1018次方)次的浮點計算,而谷歌機器翻譯算力需求量達到103E,即便用全世界最高性能的超級計算機Summit來計算,也需要較長的時間。保證有充足的算力成為提升AI運行效率基本前提,以AWS、華為等為代表的公有云廠商領(lǐng)導(dǎo)者正在采用x86/ARM CPU,GPU,NPU構(gòu)建業(yè)界最高性能的算力池。
  釋放算力是關(guān)鍵。以深度學(xué)習(xí)為特征的AI計算也依賴海量的數(shù)據(jù)的輸入(無論是AI訓(xùn)練樣本算據(jù)還是AI推理涉及到原始算據(jù)的輸入)。裝載算力的GPU/AI服務(wù)器只有獲得完整算據(jù)后才能進行AI處理,否則只能空閑等待,因而數(shù)據(jù)的存取速度將直接影響算力的發(fā)揮。比如根據(jù)AWS公開數(shù)據(jù)顯示,公有云訓(xùn)練實例P3采用100GE的優(yōu)化網(wǎng)絡(luò),要比25G的TCP網(wǎng)絡(luò)在Mask R-CNN訓(xùn)練中性能提升5倍;而在推理實例G4中,利用100GE優(yōu)化網(wǎng)絡(luò),RestNet50模型推理性能提升4倍,Bert-Base模型推理性能提升多達34倍。同樣算力條件下,如何保證算力100%釋放甚至更為關(guān)鍵。
  AI數(shù)據(jù)中心架構(gòu)重塑
  0丟包的無損網(wǎng)絡(luò)成為基本訴求
  當(dāng)前的云數(shù)據(jù)中心建設(shè)基本思路是采用虛擬化技術(shù)對IT資源池化管理,通過Software Defined Everything思路完成資源的統(tǒng)一的按需自助/自動化發(fā)放,最終實現(xiàn)Everything as a Service的云化服務(wù)形態(tài)。而為了滿足數(shù)據(jù)中心充分釋放AI算力從而使得AI高效運行的訴求,面向AI時代的數(shù)據(jù)中心架構(gòu)正在重塑。業(yè)界提出構(gòu)建以全閃存存儲數(shù)據(jù)湖為核心,以GPU/AI多樣化計算為算力底座的AI時代數(shù)據(jù)中心架構(gòu),越來越得到廣泛認可。
  AI數(shù)據(jù)中心架構(gòu)
  在AI數(shù)據(jù)中心新架構(gòu)中,作為數(shù)據(jù)中心核心組成的存儲和計算正在發(fā)生顛覆性的變革:全閃存化存儲介質(zhì)使得存儲時延降低百倍,GPU/AI智能計算使得計算性能提升百倍。計算和存儲的性能百倍提升導(dǎo)致傳統(tǒng)以太網(wǎng)的擁塞易丟包帶來的網(wǎng)絡(luò)瓶頸問題開始凸顯。根據(jù)業(yè)界統(tǒng)計,即便在低于<10%鏈路帶寬的低負載流量環(huán)境下,突發(fā)流量引起的網(wǎng)絡(luò)的丟包率也接近1‰,而這1‰的丟包在AI時代會直接導(dǎo)致算力下降接近50%。隨著業(yè)務(wù)負載的增加,分布式多打一流量的增多,網(wǎng)絡(luò)丟包問題將更為嚴重。
  如何構(gòu)建一個0丟包的無損數(shù)據(jù)中心網(wǎng)絡(luò)成為面向AI時代的數(shù)據(jù)中心網(wǎng)絡(luò)的基本要求。
  業(yè)界首款內(nèi)置AI芯片的交換機
  構(gòu)筑智能無損DCN
  我們知道大規(guī)模網(wǎng)絡(luò)中,當(dāng)流量超過交換機的處理和緩存能力時,傳統(tǒng)以太網(wǎng)基本的處理機制就是丟棄報文。無損網(wǎng)絡(luò)基本思路就是通過系列流量調(diào)度機制和措施,但其核心都在于控制發(fā)送端的發(fā)送速度,從而避免超過交換機處理能力的擁塞形成。
  如何根據(jù)交換機當(dāng)前的擁塞情況控制源端的發(fā)送速度?當(dāng)前業(yè)界基本的做法是在交換機端口設(shè)置隊列報文排隊,一旦超過某一個閾值(臨界水線),則意味著即將發(fā)生擁塞,需要緊急向源端反送反壓降速信號,從而降低發(fā)送速度規(guī)避擁塞。可以看出閾值非常關(guān)鍵,它決定發(fā)送反壓信號的時機,成為網(wǎng)絡(luò)中是否會發(fā)生擁塞的決定性因素,如何設(shè)置閾值是無損網(wǎng)絡(luò)技術(shù)創(chuàng)新的焦點。
  AS-IS傳統(tǒng)以太網(wǎng):靜態(tài)設(shè)置,粗暴反壓
  最早的無損以太交換機的基本實現(xiàn)依賴網(wǎng)絡(luò)管理員靜態(tài)設(shè)置閾值,特別考驗管理員能力,一旦設(shè)置的太保守,可能降速太多,吞吐率很差;設(shè)置太激進則無法起到無損的效果。為了調(diào)整好閾值往往需要有經(jīng)驗的工程師調(diào)測1~2天,而網(wǎng)絡(luò)無法根據(jù)流量的變化動態(tài)調(diào)整參數(shù),流量模型一旦發(fā)生變化則最優(yōu)參數(shù)失效,基本無法在大規(guī)模、多業(yè)務(wù)的AI數(shù)據(jù)中心中使用。
  TO-BE智能無損DCN:智能預(yù)測,精準(zhǔn)控制
  網(wǎng)絡(luò)擁塞控制的未來在于智能化,智能預(yù)測流量的變化,并自動設(shè)置相關(guān)的網(wǎng)絡(luò)參數(shù),從而實現(xiàn)最佳網(wǎng)絡(luò)調(diào)度。2019年初,華為發(fā)布了業(yè)界首款面向AI時代的CloudEngine數(shù)據(jù)中心交換機,最大的創(chuàng)新點在于率先將AI芯片內(nèi)嵌交換機中,基于神經(jīng)網(wǎng)絡(luò)首創(chuàng)的iLossless擁塞控制算法,完成網(wǎng)絡(luò)的自調(diào)參、自優(yōu)化,從而克服了依賴人工參與配置參數(shù),無法動態(tài)適應(yīng)網(wǎng)絡(luò)流量模型變化的關(guān)鍵問題,真正實現(xiàn)網(wǎng)絡(luò)0丟包,構(gòu)筑智能無損的數(shù)據(jù)中心網(wǎng)絡(luò)。
  智能無損DCN
  釋放AI算力巔峰
  基于CloudEngine交換機構(gòu)筑的智能無損DCN,網(wǎng)絡(luò)性能已經(jīng)無限逼近了理論最優(yōu)值,可以確保在任意擁塞鏈路0丟包的基礎(chǔ)上接近100%吞吐,全面釋放AI算力潛能。根據(jù)權(quán)威第三方測試機構(gòu)Tolly測試,在同樣GPU集群下,通過采用華為智能無損DCN,AI業(yè)務(wù)的訓(xùn)練效率比采用當(dāng)前業(yè)界其他網(wǎng)絡(luò)提升27%以上。
  華為智能無損DCN
  華為智能無損DCN,助力Atlas900沖擊全球算力巔峰。作為全球性能最快的AI訓(xùn)練集群Atlas 900由數(shù)千顆昇騰910 AI處理器組成的上百臺服務(wù)器節(jié)點互聯(lián)構(gòu)成。而其中互聯(lián)網(wǎng)絡(luò)采用由華為數(shù)據(jù)中心的CloudEngine系列交換機組成的智能無損DCN,單端口提供100Gbps的交換速率,將集群內(nèi)的所有AI服務(wù)器接入高速交換網(wǎng)絡(luò)。
  0丟包的智能無損DCN使得數(shù)據(jù)中心網(wǎng)絡(luò)實現(xiàn)三網(wǎng)融合成為可能,目前華為智能無損數(shù)據(jù)中心網(wǎng)絡(luò)AI Fabric已經(jīng)在全球互聯(lián)網(wǎng)、金融、制造等行業(yè)數(shù)字化領(lǐng)導(dǎo)者客戶的47個數(shù)據(jù)中心商用部署,成為面向AI時代的最佳數(shù)據(jù)中心網(wǎng)絡(luò)解決方案。
  DCN 學(xué)院派
  網(wǎng)絡(luò)面臨的挑戰(zhàn)與云計算、人工智能等新技術(shù)的創(chuàng)新是相生相伴的。數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)一直是網(wǎng)絡(luò)新技術(shù)的前沿陣地和實驗場,最新的網(wǎng)絡(luò)架構(gòu)、最優(yōu)的網(wǎng)絡(luò)協(xié)議和最硬核的黑科技都在這里誕生并走向成熟,輻射并帶動產(chǎn)業(yè)的發(fā)展。
  DCN學(xué)院派將精選優(yōu)質(zhì)內(nèi)容,分享數(shù)據(jù)中心網(wǎng)絡(luò)最新的前沿趨勢、產(chǎn)業(yè)觀點和技術(shù)創(chuàng)新。




 
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)