首頁 > 新聞 > 專家觀點(diǎn) >

IBM Platform HPC計(jì)算模式及網(wǎng)絡(luò)配置剖析

2014-06-25 13:38:54   作者:   來源:ZDNetserver頻道   評論:0  點(diǎn)擊:


  06月19日消息:在上一篇文章《IBM Platform HPC應(yīng)用及組件解析》中,詳細(xì)介紹了Platform HPC在單一產(chǎn)品中提供完整的高性能計(jì)算(HPC)管理解決方案,在本文中將更為詳細(xì)的解讀Platform HPC的運(yùn)行模式、集群節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、可視化節(jié)點(diǎn)、登陸節(jié)點(diǎn)、集群網(wǎng)絡(luò)、公共網(wǎng)絡(luò)、配置網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、應(yīng)用網(wǎng)絡(luò)。

  運(yùn)作模式

  圖中示例的高可用環(huán)境是用于顯示如何設(shè)計(jì)一個(gè)Platform HPC集群部署,這只是幾種可能配置之一。在我們的示例中,有4個(gè)網(wǎng)絡(luò)(公共網(wǎng)絡(luò)、配置網(wǎng)絡(luò)、管理網(wǎng)絡(luò)和應(yīng)用網(wǎng)絡(luò))以及一個(gè)共享的集群存儲,外加一個(gè)雙節(jié)點(diǎn)GPFS集群。

  圖:在物理硬件上部署Platform HPC集群

  集群節(jié)點(diǎn)

  管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和可視化節(jié)點(diǎn)可以用于Platform HPC集群中,每個(gè)節(jié)點(diǎn)都有自己的作用。

  管理節(jié)點(diǎn)

  管理節(jié)點(diǎn)是第一個(gè)安裝在集群中的節(jié)點(diǎn),每個(gè)集群都需要一個(gè)管理節(jié)點(diǎn)。它控制集群中的其他節(jié)點(diǎn)。在PHPC的早期版本中,這個(gè)節(jié)點(diǎn)也被稱為頭節(jié)點(diǎn)或者主節(jié)點(diǎn)。管理節(jié)點(diǎn)的角色是一個(gè)在用戶站點(diǎn)的部署節(jié)點(diǎn),包含在集群中運(yùn)行應(yīng)用所需的所有軟件組件。在管理節(jié)點(diǎn)連接到一個(gè)集群節(jié)點(diǎn)之后,它為計(jì)算節(jié)點(diǎn)配置和部署客戶端軟件。安裝在管理節(jié)點(diǎn)上的軟件提供以下功能:

  - 行政、管理和監(jiān)控集群
  - 安裝計(jì)算節(jié)點(diǎn)
  - 無狀態(tài)和有狀態(tài)的管理
  - 資源庫管理和更新
  - 集群配置管理
  - HPC套件管理
  - 配置模板管理
  - 應(yīng)用模板管理
  - 使用Platform MPI套件加速并行應(yīng)用處理和應(yīng)用擴(kuò)展
  - 使用Platform LSF套件進(jìn)行工作負(fù)載管理、監(jiān)控和報(bào)告
  - 用戶登錄、編制和提交作業(yè)到集群
  - 充當(dāng)防火墻把集群與外部節(jié)點(diǎn)和網(wǎng)絡(luò)阻隔開
  - 充當(dāng)服務(wù)器面向多個(gè)服務(wù),例如DHCP、TFTP、HTTP以及可選的DNS、LDAP、NFS以及NTP

  計(jì)算節(jié)點(diǎn)

  計(jì)算節(jié)點(diǎn)是專為計(jì)算密集型應(yīng)用設(shè)計(jì),以滿足計(jì)劃用例的功能要求。計(jì)算機(jī)節(jié)點(diǎn)是通過管理節(jié)點(diǎn)配置和更新的,在集群中執(zhí)行計(jì)算任務(wù)。工作負(fù)載管理系統(tǒng)(Platform LSF)在計(jì)算節(jié)點(diǎn)上設(shè)置作業(yè)位置數(shù)和CPU核心數(shù)。

  在計(jì)算節(jié)點(diǎn)配置好之后,會安裝操作系統(tǒng)(OS)分布、Platform LSF套件(工作負(fù)載管理代理、監(jiān)控和資源管理代理)、Platform MPI套件以及其他定制軟件(用戶定義)。這個(gè)計(jì)算節(jié)點(diǎn)中可以有一些本地磁盤用于操作系統(tǒng)和臨時(shí)存儲運(yùn)行應(yīng)用。也可以配置操作系統(tǒng)在無盤系統(tǒng)上啟動(dòng),以提高I/O性能(使用無狀態(tài)配置)。

  計(jì)算節(jié)點(diǎn)還加載NFS,或者可以配置GPFS實(shí)現(xiàn)共享存儲。這些計(jì)算節(jié)點(diǎn)可以協(xié)同工作使用MPI解決問題。這是由連接到高速互連網(wǎng)絡(luò)實(shí)現(xiàn)的。一些應(yīng)用在模擬過程中不要求每個(gè)計(jì)算節(jié)點(diǎn)上必須有大磁盤存儲空間。不過,大型模型可能不適合可用的內(nèi)存空間,必須在核心外解決,然后從強(qiáng)大的本地存儲中受益。

相關(guān)閱讀:

分享到: 收藏

專題