登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
科技
›
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator ...
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
[ 复制链接 ]
当贵
2025-6-9 19:50:50
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
openeuler24.03 lts sp1 安装Nvidia驱动踩坑
网上找到的文档步骤(不要操作,仅展示问题所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree
问题排查
kernel版本原因,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r
复制代码
直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
复制代码
解决问题
安装正确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
yum install vulkan-loader -y
复制代码
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
这里安装驱动和toolkit,其他取消勾选
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令问题排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc
复制代码
在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
注意,由于我尝试了多次,所以NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env[2].value=nvidia \
--set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env[3].value=true \
--set driver.enabled=false \
--set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operator
复制代码
pods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
[code]cat
openeuler24
lts
sp1
安装
Nvidia
相关帖子
Windows更新致WSA安装故障?多版本下载、使用指南及问题解决全揭秘
Miniconda 安装与环境配置全流程图解(2025 最新版)
安装odoo18依赖报错command 'x86_64-linux-gnu-gcc'
Steam安装
AlmaLinux下mysql 8安装与数据迁移
虚拟机 VMware Tools 工具安装失败/缺失的问题
Keepalived详解:原理、编译安装与高可用集群配置
macOS与Windows安装包、昇腾MindIE多机推理
K8S 中使用 YAML 安装 ECK
1分钟安装N8N-2.0中文版!解除组件限制,界面太香了!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Windows更新致WSA安装故障?多版本下载、使用指南及问题解决全揭秘
3
835
段干叶农
2025-11-29
安全
Miniconda 安装与环境配置全流程图解(2025 最新版)
1
36
章绮云
2025-11-30
安全
安装odoo18依赖报错command 'x86_64-linux-gnu-gcc'
1
842
涣爹卮
2025-12-03
安全
Steam安装
1
52
汇干环
2025-12-04
安全
AlmaLinux下mysql 8安装与数据迁移
1
337
菅舛
2025-12-07
安全
虚拟机 VMware Tools 工具安装失败/缺失的问题
1
849
姚梨素
2025-12-09
业界
Keepalived详解:原理、编译安装与高可用集群配置
0
69
决任愧
2025-12-09
安全
macOS与Windows安装包、昇腾MindIE多机推理
1
615
仇华乐
2025-12-12
业界
K8S 中使用 YAML 安装 ECK
0
739
全跺俚
2025-12-12
安全
1分钟安装N8N-2.0中文版!解除组件限制,界面太香了!
0
939
崆蛾寺
2025-12-15
回复
(3)
渭茱瀑
2025-10-23 01:17:06
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
讲怔
2025-11-26 15:17:58
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢发布原创作品,程序园因你更精彩
诞楮
2025-12-6 06:55:23
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
代码
安全
业界
签约作者
程序园优秀签约作者
发帖
当贵
2025-12-6 06:55:23
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9998
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
338
【节点】[Adjustment-WhiteBalance节点]原
298
上海专业建筑维修服务解析:标准化流程如何
942
【分析式AI】-带你弄懂XGBoost模型
728
【分析式AI】-带你弄懂XGBoost模型
48
【分析式AI】-带你弄懂XGBoost模型
270
C语言之统计天数
237
如何使用DashVector的多向量检索
270
【分析式AI】-朴素贝叶斯算法模型
215
【分析式AI】-朴素贝叶斯算法模型
933
【睿擎派】EtherCAT总线之IO模块读写
587
python3.13 3.14 新特性 好好好
783
Python新利器:用uv轻松管理venv虚拟环境和
956
Open-AutoGLM项目衍生自研app测试思路
180
.Net-Avalonia学习笔记(目录)
435
PoloAPI 绘画接口全攻略:从参数详解到实战
144
剑指offer-50、数组中重复的数字
179
嫌 Google 的 TCREI 太复杂?RACE 会更适合
975
Spring Boot中HTTP请求参数转换和请求体JSO
531
AI手机的“简单替换陷阱”与Hadoop、Cloude
474
用C#重现Gin风格:极简、效率与可扩展性设