User-Profile-Image
hankin
  • 5
  • AI
  • centos7
  • docker
  • mysql
  • PostgreSQL
  • git/gitlab
  • ELK
  • python
    • python-Tornado
    • python-django
  • redis
  • nginx
  • kvm
  • proxmox
  • mongo
  • kubernetes
  • prometheus
  • GlusterFs
  • nfs
  • freeswitch
  • httpd
  • shell脚本
  • linux
  • fastdfs
  • nextcloud
  • openssl
  • openvpn
  • rabbitmq
  • sqlite
  • svn
  • java
  • ubuntu
  • vue2
  • wordpress
  • php
  • IOT物联网
  • 项目
  • 故障处理
  • 树莓派
  • 博客存档
  • 未分类
  • 杂项
  • #1742(无标题)
  • 新视野
  • 分类
    • 项目
    • 树莓派
    • 杂项
    • 未分类
    • 新视野
    • 故障处理
    • 博客存档
    • 交换机
    • wordpress
    • vue2
    • ubuntu
    • svn
    • sqlite
    • shell脚本
    • redis
    • rabbitmq
    • python-django
    • python
    • proxmox
    • prometheus
    • PostgreSQL
    • php
    • openvpn
    • openssl
    • nginx
    • nfs
    • nextcloud
    • mysql
    • mongo
    • linux
    • kvm
    • kubernetes
    • java
    • IOT物联网
    • httpd
    • GlusterFs
    • git/gitlab
    • freeswitch
    • fastdfs
    • ELK
    • docker
    • centos7
    • AI
  • 页面
    • #1742(无标题)
  • 友链
      请到[后台->主题设置->友情链接]中设置。
Help?

Please contact us on our email for need any support

Support
    首页   ›   AI   ›   正文
AI

NVIDIA驱动安装(ubuntu Tesla V100-SXM2-16GB)

2026-01-05 15:31:35
119  0 0

https://www.nvidia.com/en-us/drivers/results/

步骤 1:卸载所有 NVIDIA 驱动
sudo apt purge nvidia
sudo apt autoremove

步骤 2:更新系统并安装驱动
sudo apt update
sudo ubuntu-drivers devices

查看可用版本
apt-cache search nvidia-driver

sudo apt install nvidia-driver-580
#sudo ubuntu-drivers autoinstall

步骤 3:重建 initramfs 并重启
sudo update-initramfs -u
sudo reboot

步骤 4:验证
重启后运行:
watch -n 1 nvidia-smi
nvidia-smi ,nvtop

nvidia-smi
Sun Jan  4 16:24:29 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05              Driver Version: 580.95.05      CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  Tesla V100-SXM2-16GB           Off |   00000000:00:10.0 Off |                    0 |
| N/A   32C    P0             23W /  300W |       0MiB /  16384MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

其他

查看ecc

nvidia-smi -q -i 0

详细监控V100状态(温度、功耗、利用率)
nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,power.draw,memory.used,memory.total --format=csv -l 1 

功耗和温度记录
nvidia-smi --query-gpu=timestamp,name,temperature.gpu,power.draw --format=csv -f gpu_log.csv

限制功率
电源不太行,满载过久会断电保护
sudo nvidia-smi -pl 220

温度墙限制(gtx 1070)
gpu温度达到80度功率100w时会锁定功率,但是风扇实际转速不到100%。可能触发了**降频保护机制**,手动设置转速降温提示整体功率

启用手动控制 + 设置风扇为 80%
nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=80"

恢复自动控制
nvidia-settings -a "[gpu:0]/GPUFanControlState=0"
评论 (0)

点击这里取消回复。

欢迎您 游客  

Copyright © 2026 网站备案号 : 蜀ICP备2022017747号
smarty_hankin 主题. Designed by hankin
主页
页面
  • #1742(无标题)
博主
tang.show
tang.show 管理员
linux、centos、docker 、k8s、mysql等技术相关的总结文档
226 文章 3 评论 300867 浏览
测试
测试