腾讯云GPU服务器使用常见问题

NVIDIA 深度学习开发卡应该使用哪种驱动?

请在Nvidia官网进行驱动下载

腾讯云GPU服务器显卡型号有哪些?

关于GPU的显卡型号,您可以参考此文档 GPU卡详情。

腾讯云GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?

使用状态监控前,需要您手动安装BCM-agent,安装完成后按照以下步骤找到GPU卡的监控信息

登录腾讯云控制台选择腾讯云服务器,点击腾讯云服务器进入腾讯云服务器列表页面。选择需要监控的腾讯云服务器名称,进入腾讯云服务器详情页面,然后点击监控按钮进入监控详情页面。在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。

系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?

nvidia-smi 工具主要用于查看GPU驱动的版本,在某些时候显示的CUDA版本并不完全准确;

nvcc 工具是由CUDA toolkit安装编译的CUDA工具,所以通过nvcc查看到的CUDA版本是准确的

腾讯云GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%

Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。

root@instance-xxxxxxxx:~# nvidia-smi -pm 1

标签