[关闭]
@comzyh 2017-07-17T17:12:52.000000Z 字数 967 阅读 1417

KTQ 解决驱动问题的一般步骤

naturali KTQueue


驱动安装 375 可以换掉,装最新的就可以

sudo apt-get install nvidia-modprobe
sudo apt-get install nvidia-375

安装 Nvidia-docker

wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb

测试 nvidia-docker 是否能启用相关驱动

nvidia-docker run --rm r.fds.so:5000/tf_image:1.0.0-cp35-avx2-nvcc nvidia-smi

如果 KTQ 不能发现显卡(表现为在KTQ中,相应机器显示总显卡数为0),可以尝试

sudo systemctl restart kubelet.service

如果执行 nvidia-smi 出现 Driver/library version mismatch

可以参见我的文章

https://comzyh.com/blog/archives/967/

主要步骤如下

Mismatch
https://devtalk.nvidia.com/default/topic/902781/reset-driver-without-rebooting-on-linux/?offset=1

sudo lsof -n -w /dev/nvidia*

sudo rmmod -f nvidia_uvm
sudo rmmod nvidia
sudo nvidia-smi

如果KTQueue 能发现显卡,但是跑程序的时候发现不了显卡

可能是NVIDIA docker 的驱动版本不对

  1. 首先执行 nvidia-docker run --rm r.fds.so:5000/tf_image:1.0.0-cp35-avx2-nvcc nvidia-smi
    看是否能正常执行,如果能正常显示,重启任务可能已经解决问题
  2. 如果问题没有解决,执行 docker volume ls,看是否又多个版本的驱动,删除不需要的驱动(可以通过nvidia-smi的第一行显示查看当前的驱动),问题一般可以解决
  3. 如果第一步失败,参考之前的方法解决
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注