您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

AIStation首次海外深度評測全記錄

2020-07-24 13:56:10   作者:   來源:CTI論壇   評論:0  點擊:


  近日,海外權(quán)威產(chǎn)品測評機構(gòu)STH評測體驗了浪潮企業(yè)級人工智能開發(fā)平臺AIStation,并給予高度評價。這是AIStation首次在海外市場進行深度產(chǎn)品體驗。
  體驗文章從管理員和用戶兩個維度全面展示了AIStation。管理員維度動手體驗了管理集群、創(chuàng)建用戶、分配資源、資源監(jiān)控等;用戶維度動手體驗了創(chuàng)建訓(xùn)練任務(wù),啟動并完成任務(wù)的完整過程。此外,STH還刊載了記者就AIStation市場策略對浪潮AI&HPC總經(jīng)理劉軍的訪談。
  STH認為“做好AI集群運營可能并不像發(fā)現(xiàn)一種解決深度學(xué)習(xí)問題的新方法那樣振奮人心,但對于在組織內(nèi)擴展共享資源至關(guān)重要。”
  附STH評測體驗AIStation全記錄
  在深入了解【用戶系統(tǒng)】前,我們先對【管理員系統(tǒng)】進行了體驗;贙ubernetes容器引擎的AIStation,與許多傳統(tǒng)的GPU/HPC/AI調(diào)度系統(tǒng)比較,不管是系統(tǒng)本身還是界面設(shè)計,都更具領(lǐng)先性。
  01. 管理員視角
  后臺的管理:AIStation在后臺開始運行后,大部分日常管理工作都可以使用腳本或通過Web GUI完成。管理員可以深入查看各個節(jié)點的負載、硬件配置,甚至可以追蹤從用戶到容器、硬件,再到單個GPU的整個流程。
  浪潮AIStation管理/GPU監(jiān)控&節(jié)點監(jiān)控'''
 
  浪潮AIStation管理/存儲監(jiān)控
  • 資源組的創(chuàng)建:盡管我們的測試集群只有幾個節(jié)點,但我們聽說AIStation已經(jīng)部署了數(shù)百個節(jié)點和上千個節(jié)點的集群。隨著節(jié)點數(shù)量的增加,創(chuàng)建資源組變得更加重要。AIStation可以創(chuàng)建多個資源組,將其指定用于開發(fā)、訓(xùn)練或通用,也可以為該組設(shè)置一些更高級別的管理和預(yù)留權(quán)限。
  浪潮AIStation管理員/新建資源組
  • 用戶及用戶組的創(chuàng)建:除了創(chuàng)建資源組之外,創(chuàng)建用戶和用戶組可能更重要。AIStation可以創(chuàng)建用戶或與現(xiàn)有的用戶目錄工具集成,然后為用戶授予訪問不同資源、存儲配額、GPU配額等的權(quán)限。
  比如,一家公司可能不會讓一個實習(xí)生100%使用整個集群或訪問敏感的訓(xùn)練數(shù)據(jù)/模型,而會把優(yōu)先權(quán)給到深度學(xué)習(xí)專家組成的內(nèi)部咨詢小組。AIStation的主要價值主張是通過單個系統(tǒng)進行全面管理。
  浪潮AIStation/Admin系統(tǒng)管理/用戶管理
  • 管理員的其他權(quán)限:管理員還可以根據(jù)權(quán)限訪問整個集群。例如,遇到作業(yè)運行緩慢的問題,管理員可以使用監(jiān)控工具查找他們的作業(yè)以及有問題的容器,甚至可以直接進入硬件查看是否有潛在的硬件問題。
  浪潮AIStation 開發(fā)平臺/容器監(jiān)控
  AIStation還具有相當全面的可視化界面,用于監(jiān)控集群,界面上可以看到CPU、GPU和內(nèi)存的利用率等信息。在集群生命周期管理方面,這類數(shù)據(jù)可幫助管理員查看資源配置情況以及系統(tǒng)容量。
  例如,如果集群以50%的CPU、60%的GPU、95%的內(nèi)存運行,這就充分說明下一代節(jié)點需要更多的內(nèi)存容量。
  浪潮AIStation管理員/報告管理/資源數(shù)據(jù)
  管理員用戶還可以查看已完成的任務(wù),以查看用戶先前運行的內(nèi)容,包括作業(yè)是否成功。在某些情況下,人們會在公司GPU集群上挖掘加密貨幣。此類功能可根據(jù)已運行的內(nèi)容進行審核跟蹤,這項功能非常重要。
  浪潮AIStation管理員/訓(xùn)練管理/已完成任務(wù)
  除了上述功能之外,另一個重要功能是管理用戶在系統(tǒng)中擁有的資源。接下來,我們會從用戶的角度進行詳細闡述。
  02. 用戶視角
  登錄AIStation時可以看到這個界面。這里面許多使用限制是通過管理板塊中顯示的用戶、組和資源組功能定義的。每個用戶都可以訪問到一組資源。
  浪潮AIStation用戶界面
  鏡像查看:開發(fā)人員如果要開始訓(xùn)練任務(wù),可以查看可訓(xùn)練的鏡像。這些鏡像很重要,因為在系統(tǒng)中創(chuàng)建任務(wù)時,它們就是可能正在使用的鏡像。它可以是來自NVIDIA GPU Cloud的鏡像或更加標準的鏡像。AIStation還具有組鏡像甚至用戶鏡像的功能,讓用戶可以更輕松地選擇容器鏡像。
  用戶可以看到個人、組和公共鏡像。管理員可以將鏡像定義為個人鏡像或公共鏡像,將敏感鏡像的查看權(quán)限僅開放給特定組或員工,這點也非常重要。
  浪潮AIStation用戶/鏡像管理
  框架選擇與任務(wù)設(shè)置:浪潮AIStation支持多種框架,用戶可以使用tensorflow、pytorch、paddlepaddle或其他框架。
  注:開發(fā)用戶通過界面化的方式選擇所需要的鏡像和資源配置,系統(tǒng)秒級完成資源配置,快速創(chuàng)建開發(fā)環(huán)境。平臺內(nèi)置juputer和webshll開發(fā)工具,保證用戶快速進入模型開發(fā)。
  • 數(shù)據(jù)管理:數(shù)據(jù)管理在AI集群中極為重要,AIStation能夠定義和存儲數(shù)據(jù)集。
  從用戶的角度來看,他們可以查看哪些數(shù)據(jù)集可供使用。用戶能夠?qū)⑷萜鲌D像、節(jié)點/物理資源和訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)。而管理員可以對這些數(shù)據(jù)集設(shè)置權(quán)限。這一點很重要,因為有些數(shù)據(jù)集只有指定用戶才能查閱、使用和下載。
  在AIStation中還可以加載Jupyter筆記本,直接編輯python文件,并且可以將筆記本保存在集群的存儲后臺,并輕松與其他用戶共享。
  浪潮AIStation用戶平臺/開發(fā)平臺/Jupyter
  浪潮AIStation/訓(xùn)練任務(wù)設(shè)置
  注:用戶可以圖形化的方式提交分布式訓(xùn)練任務(wù),快速在K8S系統(tǒng)中展開分布式訓(xùn)練,并通過優(yōu)化調(diào)度策略保證分布式訓(xùn)練資源快速準確分配。
  可視化操作:啟動任務(wù)后,AIStation平臺將集成許多可視化工具。例如,您可以啟動Tensorboard、Visdom或Netscope等工具,從下拉菜單中顯示可視化效果;用戶可以直接從Web GUI進入容器的終端。
  訓(xùn)練作業(yè)可能要花數(shù)小時或數(shù)天,用戶可隨時查看當前作業(yè)狀態(tài)進度、檢查結(jié)果以及待處理的作業(yè)及其歷史。
  浪潮AIStation用戶開發(fā)平臺可視化Tensorboard
  03. 對話浪潮劉軍
  AIStation上市戰(zhàn)略方面,我們采訪了浪潮AI&HPC總經(jīng)理劉軍。
  STH: 浪潮如何規(guī)劃AIStation的上市?
  劉軍:AIStation有直接銷售和渠道銷售兩種銷售方式,我們在全球有數(shù)十個渠道合作伙伴出售AIStation。
  STH: AIStation可以集成其他服務(wù)器供應(yīng)商的集群節(jié)點嗎?
  劉軍:是的,AIStation能夠集成其他供應(yīng)商的集群節(jié)點。
  STH: AIStation的銷售是否針對特定行業(yè)?
  劉軍:AIStation發(fā)布于2019年4月,目前已已實際應(yīng)用于金融、教育、互聯(lián)網(wǎng)和智慧城市等行業(yè)。
  STH: 只面向大型組織、服務(wù)提供商嗎?初創(chuàng)企業(yè)等較小的組織是銷售目標嗎?
  劉軍:AIStation專為深度學(xué)習(xí)開發(fā)領(lǐng)域而設(shè)計,適用于金融、互聯(lián)網(wǎng)、通信、交通、醫(yī)療和教育等行業(yè)的大小型企業(yè)。
  STH: 許可模式是怎樣的?
  劉軍:按GPU服務(wù)器節(jié)點出售。
  STH: 升級許可證需要購買新密鑰,還是客戶憑借現(xiàn)有密鑰從浪潮注冊服務(wù)器上獲得新權(quán)限?(這里提醒讀者,Web GUI上有一個許可證密鑰頁面,上文未展示)
  劉軍:用戶可享受三年內(nèi)AIStation的免費升級服務(wù),然后需要購買新密鑰進行升級。
  STH: 針對該解決方案,浪潮未來會提供其他新的服務(wù)嗎?
  劉軍:未來AIStation將支持更多的AI加速器,并實現(xiàn)資源管理、調(diào)度、監(jiān)控、優(yōu)化等方面的異構(gòu)加速。我們將建立一個更全面的AI開發(fā)生態(tài)系統(tǒng),為行業(yè)主流AI開發(fā)工具、開發(fā)框架和深度學(xué)習(xí)模型提供一個集成的開發(fā)平臺。
  最后我想強調(diào)一下在此展示AIStation的動手視圖和上市策略的原因。AIStation發(fā)布第一年即獲得不俗的軟件銷售額。要是看到他們所投資公司的AI管理軟件平臺首年就獲得如此成績,投資者一定會非常興奮。重點是,盡管浪潮將其作為產(chǎn)品發(fā)布,但實際上它已經(jīng)有很多付費客戶。這些客戶已經(jīng)在使用此解決方案來管理其AI集群和開發(fā)團隊。
  結(jié)合當前的功能,再想想異構(gòu)加速器的概念,就能馬上明白該解決方案的前景。隨著組織中集群的增多,調(diào)度和管理集群資源將成為越來越嚴峻的挑戰(zhàn),浪潮AIStation的作用也將進一步凸顯。
  掃碼獲取AIStation技術(shù)白皮書
  閱讀原文獲取完整評測內(nèi)容
  *注:浪潮今年重磅發(fā)布了元腦生態(tài)計劃,在元腦生態(tài)中浪潮將與合作伙伴共享三大核心平臺能力,包括AI計算平臺、AI資源平臺和AI算法工具平臺。其中AIStation作為AI資源平臺具備重要的作用,構(gòu)建開放的AI創(chuàng)新生態(tài),無縫對接行業(yè)ISV,賦能生態(tài)伙伴,兼容各AI應(yīng)用和場景。目前AIStation已經(jīng)聚合了包含百度、第四范式、英特爾、英偉達、VMware等數(shù)十家家企業(yè)的AI框架、模型和工具組件,已應(yīng)用到互聯(lián)網(wǎng)、通信、金融、交通、制造、醫(yī)療等場景中,成為生態(tài)豐富的人工智能資源平臺。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)