查看GPU服務器的顯卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。這個命令行工具能夠顯示關(guān)于NVIDIA GPU的多種信息,包括但不限于顯卡型號、驅(qū)動版本、顯存使用情況、GPU利用率、溫度、功耗等。
以下是使用`nvidiasmi`查看顯卡信息的步驟:
1. 登錄服務器:首先,需要通過SSH或其他方式登錄到GPU服務器。
2. 運行nvidiasmi命令:在服務器的命令行終端中輸入以下命令:
???nvidiasmi
執(zhí)行此命令后,你將看到類似以下格式的輸出信息:
???+-----------------------------------------------------------------------------+ ???|?NVIDIA-SMI?460.32.03????Driver?Version:?460.32.03????CUDA?Version:?11.2?????| ???|-------------------------------+----------------------+----------------------+ ???|?GPU??Name????????Persistence-M|?Bus-Id????????Disp.A?|?Volatile?Uncorr.?ECC?| ???|?Fan??Temp??Perf??Pwr:Usage/Cap|?????????Memory-Usage?|?GPU-Util??Compute?M.?| ???|???????????????????????????????|??????????????????????|???????????????MIG?M.?| ???|===============================+======================+======================| ???|???0??Tesla?V100-SXM2...??Off??|?00000000:00:1E.0?Off?|????????????????????0?| ???|?N/A???35C????P0????57W?/?300W?|???10938MiB?/?16160MiB?|?????88%??????Default?| ???|???????????????????????????????|??????????????????????|??????????????????N/A?| ???+-------------------------------+----------------------+----------------------+ ???... ???+-----------------------------------------------------------------------------+ ???|?Processes:??????????????????????????????????????????????????????????????????| ???|??GPU???GI???CI????????PID???Type???Process?name??????????????????GPU?Memory?| ???|????????ID???ID???????????????????????????????????????????????????Usage??????| ???|=============================================================================| ???|????0?????0?????0??????1234??????C???python???????????????????????????10938MiB?| ???|????0?????0?????0??????5678??????C???tensorflow????????????????????????2048MiB?| ???+-----------------------------------------------------------------------------+
3. 查看具體信息:輸出中包含了以下信息:
GPU Name:GPU型號名稱。
PersistenceM:GPU持久模式狀態(tài)。
BusId:GPU總線ID。
Disp.A:顯示設(shè)備狀態(tài)(Off表示沒有連接顯示器)。
Volatile Uncorr. ECC:易失性未更正的ECC錯誤計數(shù)。
Fan, Temp, Perf, Pwr:風扇轉(zhuǎn)速、溫度、性能狀態(tài)、功耗。
MemoryUsage:顯存使用情況。
GPUUtil:GPU利用率。
Compute M.:計算模式。
MIG M.:多實例GPU狀態(tài)(如果支持)。
Processes:運行在GPU上的進程及其資源使用情況。
4. 定期監(jiān)控:如果需要定期監(jiān)控GPU狀態(tài),可以使用`watch`命令:
???watch?n?1?nvidiasmi
這將每秒更新一次GPU信息。
確保服務器上已安裝了正確的NVIDIA驅(qū)動程序,`nvidiasmi`命令才能正常工作。如果沒有安裝驅(qū)動或驅(qū)動不兼容,該命令可能無法執(zhí)行或返回錯誤信息。