CentOS安裝SGE常見錯誤分析與解決方法
錯誤場景1:依賴包缺失導(dǎo)致安裝失敗
安裝過程中若出現(xiàn)configure: error: C compiler cannot create executables
等提示,需驗證開發(fā)工具鏈完整性:
yum groupinstall "Development Tools"
yum install openssl-devel libdb-devel ncurses-devel
錯誤場景2:qmaster服務(wù)啟動異常
執(zhí)行qmaster
啟動命令后出現(xiàn)unable to create pid file
錯誤時:
chown -R sgeadmin:sgeadmin /var/lib/gridengine
systemctl restart sge-qmaster
錯誤場景3:節(jié)點通信驗證失敗
在qconf -mconf
配置過程中若出現(xiàn)communication error
,需檢查:
- 所有節(jié)點
/etc/hosts
中主機名與IP正確映射 - 防火墻開放
6444/tcp
及6444/udp
端口 - NTP服務(wù)同步各節(jié)點時間
錯誤場景4:執(zhí)行節(jié)點注冊失敗
執(zhí)行qconf -ae node01
時提示host resolution failed
,需:
echo "127.0.0.1 $(hostname)" >> /etc/hosts
/usr/share/gridengine/scripts/init_cluster restart
深度調(diào)試建議
通過以下命令獲取詳細日志:
tail -f /var/spool/gridengine/qmaster/messages
grep -i error /var/log/gridengine/*