CentOS 7 PBS 集群部署與實踐
PBS集群概述
PBS(Portable Batch System)是廣泛應(yīng)用于HPC(高性能計算)環(huán)境的開源作業(yè)調(diào)度系統(tǒng),支持多節(jié)點任務(wù)分發(fā)與資源管理。在CentOS 7上部署PBS集群可有效提升計算資源利用率,適用于科研計算、大數(shù)據(jù)處理等場景。
環(huán)境準(zhǔn)備
- 操作系統(tǒng):CentOS 7 Minimal安裝
- 節(jié)點規(guī)劃:1個管理節(jié)點(Server)、N個計算節(jié)點(Client)
- 網(wǎng)絡(luò)要求:節(jié)點間SSH免密通信
- 依賴包:EPEL倉庫、gcc、make等開發(fā)工具
安裝與配置流程
1. 安裝PBS服務(wù)端
# 添加EPEL倉庫
yum install -y epel-release
# 安裝OpenPBS或TORQUE
yum install -y pbspro-server pbspro-client
# 初始化PBS服務(wù)
systemctl enable pbs
systemctl start pbs
2. 配置計算節(jié)點
# 所有節(jié)點安裝客戶端組件
yum install -y pbspro-client
# 編輯節(jié)點配置文件
echo "manager_node_ip" > /var/spool/pbs/mom_priv/config
3. 集群資源管理
通過qmgr
命令定義計算節(jié)點與隊列:
qmgr -c "create node compute_node1"
qmgr -c "create queue batch queue_type=execution"
集群驗證與測試
# 提交測試作業(yè)
echo "sleep 60" | qsub
# 查看作業(yè)狀態(tài)
qstat -a
# 檢查計算節(jié)點負(fù)載
pbsnodes -a
性能優(yōu)化建議
- 調(diào)整
pbs_server
和pbs_mom
的線程參數(shù) - 配置NUMA架構(gòu)綁定提升內(nèi)存訪問效率
- 啟用cgroups實現(xiàn)資源隔離
- 設(shè)置作業(yè)優(yōu)先級策略與隊列權(quán)重
常見問題排查
- 節(jié)點通信失?。簷z查15001-15004端口連通性
- 作業(yè)掛起:驗證資源請求是否超出節(jié)點容量
- 權(quán)限錯誤:確保
pbsusers
組權(quán)限正確
監(jiān)控與管理工具
推薦使用pbs_web
可視化界面或集成Prometheus+Grafana實現(xiàn)實時監(jiān)控,結(jié)合pbs_report
生成資源利用率報表。