IBM Platform Computing提供了一系列工作負載管理能力以優(yōu)化運行各種采用高性能計算集群的應用,并通過多樣化工作負載、業(yè)務優(yōu)先級以及應用資源需求確保較高的資源使用率。工作負載管理有效地利用計算資源來盡可能快速地完成工作負載。為了實現(xiàn)有效的工作負載分配,這里需要一個智能的調(diào)度策略。智能的調(diào)度策略是基于對共享計算資源、應用優(yōu)先級以及用戶策略的了解。提供最佳服務等級協(xié)議管理,并通過提供更大的靈活性、可見性以及對作業(yè)調(diào)度的控制,來幫助降低運營成本和基礎設施成本,這是投資回報最大化所需要的。
IBM平臺負載共享設施
IBM Platform LSF(負載共享設施)是一個功能強大的工作負載管理平臺,面向要求苛刻的、分布式和關(guān)鍵任務的高性能計算環(huán)境。IBM Platform LSF管理批量和高度并行的工作負載。它提供了靈活的以策略為驅(qū)動的調(diào)度功能,這確保了共享計算資源自動分配給用戶、群組以及作業(yè),與你的服務等級協(xié)議保持一致,從而改善資源使用情況和用戶生產(chǎn)效率。
高級調(diào)度功能使得Platform LSF適用于以高利用率運行,從而降低運營成本。很多功能結(jié)合到一起縮短用戶的等待時間,提供更好的服務等級,這樣知識型工作者就可以獲得更高的工作效率,從而產(chǎn)生更快速、更高質(zhì)量的工作結(jié)果。它強大的管理功能使得一小群管理員可以更輕松地進行管理,提高效率并釋放有價值的員工投入到其他項目中。例如,你可以委派控制一個特定的用戶社區(qū)到一個特定的項目或者給某個部門經(jīng)理。你還可以重新配置集群給一個群組,而不會導致其他所有群組的停機時間,使用一種受益于通過GPU的新型應用。所有這些功能都將轉(zhuǎn)化為靈活性。
Platform LSF功能的可擴展性可以滿足您不斷變化的需求,Platform LSF是可以在多個維度上進行擴展的。它可以擴展到數(shù)十萬的節(jié)點和數(shù)百萬的作業(yè)。它還可以在其他維度進行擴展:例如,在它所支持的資源廣度方面。無論你是管理Windows、Linux、GPU工作負載還是浮動應用許可,Platform LSF都可以對跨多個數(shù)據(jù)中心和地域的大量用戶和資源進行靈活控制。它還可以擴展支持不同類型的工作負載,或者數(shù)百萬以毫秒計算的短時作業(yè)。Platform LSF具有調(diào)度功能以滿足這些多樣化的需求,處理大規(guī)模工作負載。Platform LSF在解決各種調(diào)度問題的能力上是獨一無二的,它能夠在一個集群上同時激活多重策略。
Platform LSF的智能調(diào)度策略包括以下特性:
公平調(diào)度
拓撲和核心感知調(diào)度
回填和搶占
資源預留
可調(diào)整大小的作業(yè)
連續(xù)和并行的控制
提前預約
作業(yè)饑餓
許可調(diào)度
基于SLA的調(diào)度
絕對優(yōu)先級調(diào)度
檢查點和恢復
作業(yè)陣列
GPU感知的調(diào)度,NVDIA GPU和英特爾至強Phi加速器均支持
與IBM platform MPI以及IBM并行環(huán)境的緊密集成
可自定義的調(diào)度器
以下版本提供了Platform LSF,以確保用戶擁有合適的功能集以滿足他們的需求:
快捷版:適合于單集群環(huán)境,針對低吞吐量、并行作業(yè)以及簡單用戶群組結(jié)構(gòu)進行了優(yōu)化
標準版:適合于多集群或者網(wǎng)格環(huán)境,針對高吞吐量、連續(xù)作業(yè)以及復雜用戶群組結(jié)構(gòu)進行了優(yōu)化
高級版:支持極高的可擴展性,吞吐量達到100k+的核心以及并發(fā)作業(yè)
Platform LSF的性能取決于許多因素,包括集群中節(jié)點的數(shù)量、并行運行作業(yè)的數(shù)量、等待作業(yè)的數(shù)量、用戶作業(yè)查詢的數(shù)量以及查詢的頻率。隨著這些任務的增加,調(diào)度周期和用戶響應時間也會隨之增加。對于高吞吐量工作負載來說,整體系統(tǒng)性能取決于處理能力、I/O容量以及調(diào)度節(jié)點的內(nèi)存。以下表格提供了基于測試集群配置的衡量指南。對于大型集群來說,建議用戶尋求IBM的集群調(diào)優(yōu)服務和幫助。