查看GPU服務(wù)器的顯卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。這個(gè)命令行工具能夠顯示關(guān)于NVIDIA GPU的多種信息,包括但不限于顯卡型號(hào)、驅(qū)動(dòng)版本、顯存使用情況、GPU利用率、溫度、功耗等。
以下是使用`nvidiasmi`查看顯卡信息的步驟:
1. 登錄服務(wù)器:首先,需要通過SSH或其他方式登錄到GPU服務(wù)器。
2. 運(yùn)行nvidiasmi命令:在服務(wù)器的命令行終端中輸入以下命令:
nvidiasmi
執(zhí)行此命令后,你將看到類似以下格式的輸出信息:
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:00:1E.0 Off | 0 | | N/A 35C P0 57W / 300W | 10938MiB / 16160MiB | 88% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ ... +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | 0 0 0 1234 C python 10938MiB | | 0 0 0 5678 C tensorflow 2048MiB | +-----------------------------------------------------------------------------+
3. 查看具體信息:輸出中包含了以下信息:
GPU Name:GPU型號(hào)名稱。
PersistenceM:GPU持久模式狀態(tài)。
BusId:GPU總線ID。
Disp.A:顯示設(shè)備狀態(tài)(Off表示沒有連接顯示器)。
Volatile Uncorr. ECC:易失性未更正的ECC錯(cuò)誤計(jì)數(shù)。
Fan, Temp, Perf, Pwr:風(fēng)扇轉(zhuǎn)速、溫度、性能狀態(tài)、功耗。
MemoryUsage:顯存使用情況。
GPUUtil:GPU利用率。
Compute M.:計(jì)算模式。
MIG M.:多實(shí)例GPU狀態(tài)(如果支持)。
Processes:運(yùn)行在GPU上的進(jìn)程及其資源使用情況。
4. 定期監(jiān)控:如果需要定期監(jiān)控GPU狀態(tài),可以使用`watch`命令:
watch n 1 nvidiasmi
這將每秒更新一次GPU信息。
確保服務(wù)器上已安裝了正確的NVIDIA驅(qū)動(dòng)程序,`nvidiasmi`命令才能正常工作。如果沒有安裝驅(qū)動(dòng)或驅(qū)動(dòng)不兼容,該命令可能無(wú)法執(zhí)行或返回錯(cuò)誤信息。