19sex性高清网站,成人国产视频在线,91人人妻人人爽人人狠狠

　　近日，斯坦福大學(xué)發(fā)布了DAWNBenchmark最新成績(jī)，在圖像識(shí)別（ResNet50-on-ImageNet，93%以上精度）的總訓(xùn)練時(shí)間上，華為云ModelArts排名第一，僅需10分28秒，比第二名提升近44%。成績(jī)證明，華為云ModelArts實(shí)現(xiàn)了更低成本、更快速度、更極致的體驗(yàn)。

　　斯坦福大學(xué)DWANBench是用來(lái)衡量端到端的深度學(xué)習(xí)模型訓(xùn)練和推理性能的國(guó)際權(quán)威基準(zhǔn)測(cè)試平臺(tái)，相應(yīng)的排行榜反映了當(dāng)前全球業(yè)界深度學(xué)習(xí)平臺(tái)技術(shù)的領(lǐng)先性。

　　計(jì)算時(shí)間和成本是構(gòu)建深度模型的關(guān)鍵資源，DAWNBench提供了一套通用的深度學(xué)習(xí)評(píng)價(jià)指標(biāo)，用于評(píng)估不同優(yōu)化策略、模型架構(gòu)、軟件框架、云和硬件上的訓(xùn)練時(shí)間、訓(xùn)練成本、推理延遲以及推理成本。

　　斯坦福大學(xué)DAWNBenchmark最新成績(jī)

　　作為人工智能最重要的基礎(chǔ)技術(shù)之一，近年來(lái)深度學(xué)習(xí)也逐步延伸到更多的應(yīng)用場(chǎng)景。

　　隨著深度學(xué)習(xí)模型越來(lái)越大，所需數(shù)據(jù)量越來(lái)越多，深度學(xué)習(xí)的訓(xùn)練和推理性能將是重中之重。華為云ModelArts將結(jié)合華為在AI芯片、硬件、云設(shè)施、軟件和算法的全棧優(yōu)勢(shì)，打造更快的普惠的AI開(kāi)發(fā)平臺(tái)。

　　斯坦福大學(xué)DAWNBenchmark網(wǎng)頁(yè)鏈接：https://dawn.cs.stanford.edu/benchmark/

　　下文將深入分析，華為云ModelArts如何做到性能極致——128塊GPU，ImageNet訓(xùn)練時(shí)間10分鐘。

　　深度學(xué)習(xí)已廣泛應(yīng)用

　　模型增大、數(shù)據(jù)增長(zhǎng)，深度學(xué)習(xí)訓(xùn)練加速的需求日益劇增

　　近年來(lái)，深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理、視頻分析等領(lǐng)域，可服務(wù)于視頻監(jiān)控、自動(dòng)駕駛、搜索推薦、對(duì)話機(jī)器人等場(chǎng)景，具有廣闊的商業(yè)價(jià)值。

　　為了達(dá)到更高的精度，通常深度學(xué)習(xí)所需數(shù)據(jù)量和模型都很大，訓(xùn)練非常耗時(shí)。例如：

　　在計(jì)算機(jī)視覺(jué)中，如果我們?cè)贗mageNet[1]數(shù)據(jù)集上用1塊P100 GPU訓(xùn)練一個(gè)ResNet-50模型，則需要耗時(shí)將近1周。這嚴(yán)重阻礙了深度學(xué)習(xí)應(yīng)用的開(kāi)發(fā)進(jìn)度。因此，深度學(xué)習(xí)訓(xùn)練加速一直是學(xué)術(shù)界和工業(yè)界所關(guān)注的重要問(wèn)題，也是深度學(xué)習(xí)應(yīng)主要用的痛點(diǎn)。

　　Jeremy Howard等幾位教授領(lǐng)銜的fast.ai當(dāng)前專(zhuān)注于深度學(xué)習(xí)加速，在ImageNet數(shù)據(jù)集上用128塊V100 GPU訓(xùn)練 ResNet-50模型的最短時(shí)間為18分鐘。

　　然而，最近BigGAN、NASNet、BERT等模型的出現(xiàn)，預(yù)示著訓(xùn)練更好精度的模型需要更強(qiáng)大的計(jì)算資源。

　　可以預(yù)見(jiàn)，在未來(lái)隨著模型的增大、數(shù)據(jù)量的增加，深度學(xué)習(xí)訓(xùn)練加速將變得會(huì)更加重要。只有擁有端到端全棧的優(yōu)化能力，才能使得深度學(xué)習(xí)的訓(xùn)練性能做到極致。

　　[1] 文中所指的ImageNet數(shù)據(jù)集包含1000類(lèi)個(gè)類(lèi)別，共128萬(wàn)張圖片，是最常用、最經(jīng)典的圖像分類(lèi)數(shù)據(jù)集，是原始的ImageNet數(shù)據(jù)的一個(gè)子集。

　　華為云ModelArts創(chuàng)造新記錄“極致”的訓(xùn)練速度

　　華為云ModelArts是一站式的AI開(kāi)發(fā)平臺(tái)，已經(jīng)服務(wù)于華為公司內(nèi)部各大產(chǎn)品線的AI模型開(kāi)發(fā)，幾年下來(lái)已經(jīng)積累了跨場(chǎng)景、軟硬協(xié)同、端云一體等多方位的優(yōu)化經(jīng)驗(yàn)。

　　ModelArts提供了自動(dòng)學(xué)習(xí)、數(shù)據(jù)管理、開(kāi)發(fā)管理、訓(xùn)練管理、模型管理、推理服務(wù)管理、市場(chǎng)等多個(gè)模塊化的服務(wù)，使得不同層級(jí)的用戶都能夠很快地開(kāi)發(fā)出自己的AI模型。

　　圖1.華為云ModelArts功能視圖

　　在模型訓(xùn)練部分，ModelArts通過(guò)硬件、軟件和算法協(xié)同優(yōu)化來(lái)實(shí)現(xiàn)訓(xùn)練加速。尤其在深度學(xué)習(xí)模型訓(xùn)練方面，華為將分布式加速層抽象出來(lái)，形成一套通用框架——MoXing（“模型”的拼音，意味著一切優(yōu)化都圍繞模型展開(kāi)）。

　　采用與fast.ai一樣的硬件、模型和訓(xùn)練數(shù)據(jù)，ModelArts可將訓(xùn)練時(shí)長(zhǎng)可縮短到10分鐘，創(chuàng)造了新的記錄，為用戶節(jié)省44%的時(shí)間。

　　圖2. 基于MoXing和ModelArts的訓(xùn)練速度提升

　　分布式加速框架MoXing

　　MoXing是華為云ModelArts團(tuán)隊(duì)自研的分布式訓(xùn)練加速框架，它構(gòu)建于開(kāi)源的深度學(xué)習(xí)引擎TensorFlow、MXNet、PyTorch、Keras之上，使得這些計(jì)算引擎分布式性能更高，同時(shí)易用性更好。

　　高性能

　　MoXing內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式SGD優(yōu)化算法、級(jí)聯(lián)式混合并行技術(shù)、超參數(shù)自動(dòng)調(diào)優(yōu)算法，并且在分布式訓(xùn)練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預(yù)處理、分布式通信等多個(gè)方面做了優(yōu)化，結(jié)合華為云Atlas高性能服務(wù)器，實(shí)現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學(xué)習(xí)加速。

　　圖3.華為云MoXing架構(gòu)圖

　　易用：讓開(kāi)發(fā)者聚焦業(yè)務(wù)模型，無(wú)憂其他

　　在易用性方面，上層開(kāi)發(fā)者僅需關(guān)注業(yè)務(wù)模型，無(wú)需關(guān)注下層分布式相關(guān)的API，僅需根據(jù)實(shí)際業(yè)務(wù)定義輸入數(shù)據(jù)、模型以及相應(yīng)的優(yōu)化器即可，訓(xùn)練腳本與運(yùn)行環(huán)境（單機(jī)或者分布式）無(wú)關(guān)，上層業(yè)務(wù)代碼和分布式訓(xùn)練引擎可以做到完全解耦。

　　從兩大指標(biāo)看MoXing分布式加速關(guān)鍵技術(shù)

　　在衡量分布式深度學(xué)習(xí)的加速性能時(shí)，主要有如下2個(gè)重要指標(biāo)：

吞吐量，即單位時(shí)間內(nèi)處理的數(shù)據(jù)量；
收斂時(shí)間，即達(dá)到一定的收斂精度所需的時(shí)間。

　　吞吐量一般取決于服務(wù)器硬件（如更多、更大FLOPS處理能力的AI加速芯片，更大的通信帶寬等）、數(shù)據(jù)讀取和緩存、數(shù)據(jù)預(yù)處理、模型計(jì)算（如卷積算法選擇等）、通信拓?fù)涞确矫娴膬?yōu)化，除了低bit計(jì)算和梯度（或參數(shù)）壓縮等，大部分技術(shù)在提升吞吐量的同時(shí)，不會(huì)造成對(duì)模型精度的影響。

　　為了達(dá)到最短的收斂時(shí)間，需要在優(yōu)化吞吐量的同時(shí)，在調(diào)參方面也做調(diào)優(yōu)。如果調(diào)參調(diào)的不好，那么吞吐量有時(shí)也很難優(yōu)化上去，例如batch size這個(gè)超參不足夠大時(shí)，模型訓(xùn)練的并行度就會(huì)較差，吞吐量難以通過(guò)增加計(jì)算節(jié)點(diǎn)個(gè)數(shù)而提升。

　　對(duì)用戶而言，最終關(guān)心的指標(biāo)是收斂時(shí)間，因此MoXing和ModelArts實(shí)現(xiàn)了全棧優(yōu)化，極大縮短了訓(xùn)練收斂時(shí)間。

在數(shù)據(jù)讀取和預(yù)處理方面，MoXing通過(guò)利用多級(jí)并發(fā)輸入流水線使得數(shù)據(jù)IO不會(huì)成為瓶頸；
在模型計(jì)算方面，MoXing對(duì)上層模型提供半精度和單精度組成的混合精度計(jì)算，通過(guò)自適應(yīng)的尺度縮放減小由于精度計(jì)算帶來(lái)的損失；
在超參調(diào)優(yōu)方面，采用動(dòng)態(tài)超參策略（如momentum、batch size等）使得模型收斂所需epoch個(gè)數(shù)降到最低；
在底層優(yōu)化方面，MoXing與底層華為自研服務(wù)器和通信計(jì)算庫(kù)相結(jié)合，使得分布式加速進(jìn)一步提升。

　　測(cè)試結(jié)果對(duì)比，用數(shù)據(jù)說(shuō)話

　　一般在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型，當(dāng)Top-5精度≥93%或者Top-1 精度≥75%時(shí)即可認(rèn)為模型收斂。

　　我們測(cè)試的模型訓(xùn)練收斂曲線如下圖所示。此處Top-1和Top-5精度為訓(xùn)練集上的精度，為了達(dá)到極致的訓(xùn)練速度，訓(xùn)練過(guò)程中采用了額外進(jìn)程對(duì)模型進(jìn)行驗(yàn)證，最終驗(yàn)證精度如表1所示（包含與fast.ai的對(duì)比）。

　　圖4（a）所對(duì)應(yīng)的模型在驗(yàn)證集上Top-1 精度≥75%，訓(xùn)練耗時(shí)為10分06秒；圖4（b）所對(duì)應(yīng)的模型在驗(yàn)證集上Top-5 精度≥93%，訓(xùn)練耗時(shí)為10分58秒。

　　圖4. ResNet50 on ImageNet訓(xùn)練收斂曲線

　�。ㄇ€上的精度為訓(xùn)練集上的精度）

　　MoXing與fast.ai的訓(xùn)練結(jié)果對(duì)比

　　未來(lái)展望——更快的普惠AI開(kāi)發(fā)平臺(tái)

　　華為云ModelArts致力于為用戶提供更快的普惠AI開(kāi)發(fā)體驗(yàn)，尤其在模型訓(xùn)練這方面，內(nèi)置的MoXing框架使得深度學(xué)習(xí)模型訓(xùn)練速度有了很大的提升。

　　正如前所述，深度學(xué)習(xí)加速屬于一個(gè)從底層硬件到上層計(jì)算引擎、再到更上層的分布式訓(xùn)練框架及其優(yōu)化算法多方面協(xié)同優(yōu)化的結(jié)果，具備全棧優(yōu)化能力才能將用戶訓(xùn)練成本降到最低。

　　后續(xù)，華為云ModelArts將進(jìn)一步整合軟硬一體化的優(yōu)勢(shì)，提供從芯片（Ascend）、服務(wù)器（Atlas Server）、計(jì)算通信庫(kù)（CANN）到深度學(xué)習(xí)引擎（MindSpore）和分布式優(yōu)化框架（MoXing）全棧優(yōu)化的深度學(xué)習(xí)訓(xùn)練平臺(tái)。

　　并且，ModelArts會(huì)逐步集成更多的數(shù)據(jù)標(biāo)注工具，擴(kuò)大應(yīng)用范圍，將繼續(xù)服務(wù)于智慧城市、智能制造、自動(dòng)駕駛及其它新興業(yè)務(wù)場(chǎng)景，在公有云上為用戶提供更普惠的AI服務(wù)。

　　目前華為云ModelArts已經(jīng)在公測(cè)中
　　掃描二維碼立即體驗(yàn)~

斯坦福DAWNBench：華為云ModelArts深度學(xué)習(xí)訓(xùn)練全球最快

評(píng)論排行

推薦閱讀

專(zhuān)題

大家都在看