首頁 > 新聞 > 專家觀點 >

IBM Platform Computing工作負載管理解讀

2014-06-25 13:51:39   作者:   來源:ZDNet軟件頻道   評論:0  點擊:


  IBM Platform LSF在很多行業(yè)得到了成功部署,用于管理批量和高度并行的工作負載。Platform LSF的用戶使用案例受益于關(guān)鍵行業(yè)領(lǐng)先獨立軟件廠商的應用支持。在Platform應用中心內(nèi)的IBM Platform LSF具有完整的應用模版,覆蓋ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、ClustalW、CMGL STARS、CMGL IMEX、CMGL GEM、HMMER、LS-DYNA、MATLAB、MSC Nastran、NCBI Blast、NWChem、Schlumberger ECLIPSE、Simulia Abaqus、STAR-CCM,以及用于內(nèi)部或者開源應用的通用模板。通過訪問應用的標準化,Platform應用中心可以更容易地執(zhí)行站點策略并解決基于角色的訪問控制(RBAC)的安全擔憂。

  通過Platform LSF,計算資源通過動態(tài)和透明的負載共享提供給用戶。通過其透明遠程作業(yè)運行,Platform LSF提供了強大的遠程主機以提高應用性能,這使得用戶能夠在系統(tǒng)中的任何地方訪問資源。

  Platform LSF架構(gòu)

  Platform LSF是一個位于異構(gòu)企業(yè)資源之上的軟件服務層。下表顯示了這種分層的服務模式,它接受并且調(diào)用工作負載為批量或者非批量處理應用、管理資源和監(jiān)控所有活動。

  Platform LSF分層的服務模式

  上圖中顯示了工作負載資源管理層的三個核心組件,分別是LSF Base、LSF Batch和LSF Libraries。這三個組件一起幫助創(chuàng)建一個共享的、可擴展的、容錯的基礎(chǔ)設(shè)施,交付更快速更可靠的工作負載性能。

  LSF Base為分布式系統(tǒng)提供了基礎(chǔ)的負載均衡服務,例如資源使用情況信息、主機選擇、作業(yè)安置決策、透明遠程運行作業(yè)以及遠程文件選項。這些服務是通過以下組件提供的:

  負載信息管理器(LIM)。每臺主機上的LIM監(jiān)控主機的負載,并向運行在主機節(jié)點上的LIM報告負載性能。主LIM手機來自運行在集群中的所有從屬主機的信息,并向應用提供相同的信息。

  進程信息管理器(PIM)。這是LIM發(fā)起的,運行在集群中的每個節(jié)點上。它收集運行在主機上的作業(yè)流程信息,例如作業(yè)消耗的CPU和內(nèi)存,并將這些信息報告給sbatchd。

  遠程執(zhí)行服務器(RES)。每臺服務器主機上的RES接收遠程運行請求,提供高速、透明和安全的遠程任務運行。

  有多個工具例如lstools、lstcsh和lsmake可用于管理工作負載。

  LSFBatch將Platform LSF基礎(chǔ)服務擴展至能夠為批量作業(yè)處理系統(tǒng)提供負載均衡和基于策略的資源分配控制。為了提供這種功能,LSF Batch使用以下一些平臺LSF的基礎(chǔ)服務:

  · 來自LIM的資源和負載信息,以便做負載均衡

  · 來自LIM的集群配置信息

  · 由LIM提供的主LIM選擇服務

  · RES用于交互式批量作業(yè)運行

  · 由RES提供的遠程文件操作服務用于文件傳輸

  Platform LSF Batch的核心組件是基于Master Batch Scheduler守護進程(mbschd)的調(diào)度框架,與多個插件進行結(jié)合。所有調(diào)度策略都是在插件中實現(xiàn)的。針對每個調(diào)度周期,觸發(fā)調(diào)度,然后控制負載通過每個調(diào)度策略插件,并按照調(diào)度策略選擇和派發(fā)到執(zhí)行節(jié)點。

  在不同的調(diào)度階段,這個插件都可以攔截作業(yè)負載并影響最終決策。這意味著為了做出調(diào)度決策,Platform LSF采用多個調(diào)度方法,可以并發(fā)運行以及用于任何組合中,包括用戶定義的定制調(diào)度方法。這種獨特的模塊化架構(gòu)讓調(diào)度器框架可擴展增加新策略例如新的親和插件。

  LSF Batch服務是有兩個守護進程提供的。Master Batch守護進程(mbatchd)運行在主主機上,負責系統(tǒng)中整體作業(yè)狀態(tài)。它接收作業(yè)提交和信息查詢請求。守護進程管理隊列中的作業(yè),迅速將作業(yè)調(diào)遣至由mbatchd決定的主機。Slave Batch守護進程(sbatchd)運行在每個從屬主機上。守護進程接收請求運行來自mbatchd的作業(yè),并管理作業(yè)的本地運行。它負責執(zhí)行本地策略并維持主機上的作業(yè)狀態(tài)。守護進程創(chuàng)建一個子sbatchd以應對每個作業(yè)運行。這個子sbatchd將作業(yè)發(fā)送到RES,后者創(chuàng)建作業(yè)運行的環(huán)境。

  LSF庫為分布式計算應用開發(fā)者提供API,以訪問作業(yè)調(diào)度和資源管理功能,提供以下一些平臺LSF庫:

  LSLIB:這是一個LSF庫,為跨異構(gòu)計算機網(wǎng)絡的應用提供Platform LSF基礎(chǔ)服務。Platform LSF基礎(chǔ)API是Platform LSF基礎(chǔ)系統(tǒng)的直接用戶界面,為Platform LSF服務器的服務提供輕松的訪問。一臺Platform LSF主機服務器運行負載共享作業(yè)。一個LIM和RES運行在每個Platform LSF服務器主機上。他們與主機操作系統(tǒng)連接,為用戶提供一個統(tǒng)一的、獨立于主機的環(huán)境。

  LSBLIB:LSF批量處理庫為應用編程者提供了對作業(yè)隊列處理服務的訪問,這些服務是由平臺LSF批量服務器提供的。所有平臺LSF批量用戶界面工具都是構(gòu)建在LSBLIB之上的。通過LSBLIB提供的服務包括平臺批量系統(tǒng)信息服務、作業(yè)操縱服務、日志文件處理服務以及Platform LSF批量管理服務。

分享到: 收藏

專題