登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
科技
›
Linux搭建Slurm和pbs单机版
Linux搭建Slurm和pbs单机版
[ 复制链接 ]
眺愤
2025-6-9 16:46:04
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
Slurm
Slurm 是高性能计算集群的出色工作调度工具。此外,当你需要同时运行多个程序并将它们排成队列,同时确保计算机或服务器不超载时,它也是本地台式机或单台服务器上的重要工具。此外,在与其他用户共享服务器或需要通宵或连续数周运行多个工作时,它也非常有用!在这里,我将向你展示如何在使用 ubuntu单台机器上快速设置 slurm。你将不再需要为运行多个程序而编写杂乱无章的脚本,以避免超出硬件限制或与同事争论谁的程序先运行。
让我们先用 apt 安装,对于基本的单机设置,只需要控制守护程序 slurmctld 和计算节点守护程序 slurmd 这两个软件包:
$ sudo apt update -y
$ sudo apt install slurmd slurmctld -y
复制代码
接下来,我们需要创建 slurm.conf 文件,配置 slurm 队列的设置方式。这里我们使用一个非常简单的文件:(请根据你的机器规格调整 COMPUTE NODES 部分,例如,如果你有 10 个内核 CPU=10,内存为 32000MB RealMemory=32000 .
# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ClusterName=localcluster
SlurmctldHost=localhost
MpiDefault=none
ProctrackType=proctrack/linuxproc
ReturnToService=2
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/lib/slurm-llnl/slurmd
SlurmUser=slurm
StateSaveLocation=/var/lib/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
#
#AccountingStoragePort=
AccountingStorageType=accounting_storage/none
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
#
# COMPUTE NODES
NodeName=localhost CPUs=1 RealMemory=500 State=UNKNOWN
PartitionName=LocalQ Nodes=ALL Default=YES MaxTime=INFINITE State=UP
# chmod 755 /etc/slurm-llnl/
复制代码
现在让我们用 systemd 启动 slurm:
$ sudo systemctl start slurmctld
$ sudo systemctl start slurmd
复制代码
最后,将机器设置为空闲状态,以便开始排队等待作业:
$ sudo scontrol update nodename=localhost state=idle
$ sinfo
partition avail timelimit nodes state nodelist
LocalQ* up infinite 1 idle localhost
复制代码
如果成功,您就看到了上面的内容,很好,您已经启动并运行了 slurm。您现在有了一个名为 LocalQ 的队列(或 slurm 行话中的 “分区”),可以向其提交工作。如果遇到任何问题,可以查看 /var/log/slurm-llnl/slurmd.log 和 /var/log/slurm-llnl/slurmctld.log 中的日志进行调试。
现在,您已经有了一个正常运行的 slurm 队列,如果需要更改配置,只需编辑 slurm.conf,然后通过 systemd 重启 slurmctld 和 slurmd 即可。关于如何使用 slurm 的更多信息,网上有很多文章。只需谷歌搜索 “如何向 slurm 提交作业”,或访问 slurm 网站。
参考资料
软件测试精品书籍文档下载持续更新 https://github.com/china-testing/python-testing-examples 请点赞,谢谢!
本文涉及的python测试开发库 谢谢点赞! https://github.com/china-testing/python_cn_resouce
python精品书籍下载 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
Linux精品书籍下载 https://www.cnblogs.com/testing-/p/17438558.html
https://github.com/Artlands/Install-Slurm
https://drtailor.medium.com/how-to-setup-slurm-on-ubuntu-20-04-for-single-node-work-scheduling-6cc909574365
https://drtailor.medium.com/how-to-quickly-set-up-openpbs-on-ubuntu-20-04-for-single-node-workload-scheduling-704140d074e8
https://slurm.schedmd.com/documentation.html
https://github.com/openpbs/openpbs/blob/master/INSTALL
https://medium.com/@satishdotpatel/setup-slurm-web-for-slurm-hpc-clusters-13a9873094a1
OpenPBS
OpenPBS 是高性能计算集群的工作调度工具。此外,当你需要同时运行多个程序并将它们排成队列,同时确保计算机或服务器不超载时,它也是本地桌面或单台服务器上的重要工具。此外,在与其他用户共享服务器或需要通宵或连续数周运行多个工作时,它也非常有用!在这里,我将向你展示如何在使用 ubuntu 20.04单台机器上快速设置 OpenPBS 。你将不再需要为运行多个程序而编写复杂的脚本,以避免超出硬件限制或与同事争论谁的程序先运行。
安装 postgresql
$ sudo apt install gcc make libtool libhwloc-dev libx11-dev \
libxt-dev libedit-dev libical-dev ncurses-dev perl \
postgresql-server-dev-all postgresql-contrib python3-dev tcl-dev tk-dev swig \
libexpat-dev libssl-dev libxext-dev libxft-dev autoconf \
automake g++
$ sudo apt install expat libedit2 postgresql python3 postgresql-contrib sendmail-bin \
sudo tcl tk libical3 postgresql-server-dev-all
复制代码
下载 OpenPBS:
打开:https://www.openpbs.org/Download.aspx#download
点击:openpbs_23.06.06.ubuntu_20.04.zip
安装OpenPBS
$ unzip openpbs_23.06.06.ubuntu_20.04.zip
$ cd openpbs_23.06.06.ubuntu_20.04
$ sudo apt install ./openpbs-server_23.06.06-1_amd64.deb ./openpbs-devel_23.06.06-1_amd64.deb ./ openpbs-debuginfo_23.06.06-1_amd64.deb
$ sudo /opt/pbs/libexec/pbs_postinstall
# 现在应将 PBS_START_MOM 的值从 0 改为 1
$ sudo vi /etc/pbs.conf
PBS_EXEC=/opt/pbs
PBS_SERVER=noteboo
PBS_START_SERVER=1
PBS_START_SCHED=1
PBS_START_COMM=1
PBS_START_MOM=1
PBS_HOME=/var/spool/pbs
PBS_CORE_LIMIT=unlimited
PBS_SCP=/usr/bin/scp
$ sudo vi /etc/hosts
172.16.36.204 noteboo localhost
$ sudo chmod 4755 /opt/pbs/sbin/pbs_iff /opt/pbs/sbin/pbs_rcp
$ sudo systemctl start pbs.service
复制代码
验证
现在,让我们使用 pbsnode -a 命令确认一切正常,本地计算机已注册到 PBS:
$ . /etc/profile.d/pbs.sh
$ qstat -B
Server Max Tot Que Run Hld Wat Trn Ext Status
---------------- ----- ----- ----- ----- ----- ----- ----- ----- -----------
noteboo 0 0 0 0 0 0 0 0 Active
$ pbsnodes -a
noteboo
Mom = noteboo
ntype = PBS
state = free
pcpus = 16
resources_available.arch = linux
resources_available.host = noteboo
resources_available.mem = 16052476kb
resources_available.ncpus = 16
resources_available.vnode = noteboo
resources_assigned.accelerator_memory = 0kb
resources_assigned.hbmem = 0kb
resources_assigned.mem = 0kb
resources_assigned.naccelerators = 0
resources_assigned.ncpus = 0
resources_assigned.vmem = 0kb
resv_enable = True
sharing = default_shared
license = l
last_state_change_time = Sat Jan 18 14:16:17 2025
last_used_time = Sat Jan 18 14:21:57 2025
$ echo "sleep 60" | qsub
2.noteboo
$ qstat -a
noteboo:
Req'd Req'd Elap
Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time
--------------- -------- -------- ---------- ------ --- --- ------ ----- - -----
2.noteboo andrew workq STDIN 162200 1 1 -- -- R 00:00
复制代码
现在您的服务器上已经有了一个正常运行的 OpenPBS 队列系统。如果您想通过 PBS 脚本提交作业,只需在谷歌上搜索 PBS 提交脚本示例,就会出现大量指南/示例。可在OpenPBS主页,了解更多信息 https://www.openpbs.org。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
Linux
搭建
Slurm
pbs
单机版
相关帖子
Linux Mint在更新内核后出现网卡未识别的问题
Linux Mint下使用vscode编译C++代码
linux异常磁盘lvm恢复---惜分飞
Kubernetes集群的搭建与DevOps实践(下)- 部署实践篇
在windows平台搭建一个mini版本的k8s集群
Linux常用命令查询工具(好记性不如烂笔头)
Linux DMA开发指南(一)
关于linux编译c语言文件的一些错误问题
[Linux] 手写轻量C++函数性能探查器:CPU占用率&耗时
Wayland下RDP服务器的搭建
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Linux Mint在更新内核后出现网卡未识别的问题
0
93
汇干环
2025-12-09
安全
Linux Mint下使用vscode编译C++代码
1
739
聊账
2025-12-10
安全
linux异常磁盘lvm恢复---惜分飞
2
860
峰邑
2025-12-10
业界
Kubernetes集群的搭建与DevOps实践(下)- 部署实践篇
1
562
訾懵
2025-12-10
业界
在windows平台搭建一个mini版本的k8s集群
1
101
计海龄
2025-12-11
安全
Linux常用命令查询工具(好记性不如烂笔头)
1
597
闾丘婉奕
2025-12-12
业界
Linux DMA开发指南(一)
0
677
芮梦月
2025-12-15
安全
关于linux编译c语言文件的一些错误问题
1
956
诈知
2025-12-15
安全
[Linux] 手写轻量C++函数性能探查器:CPU占用率&耗时
0
618
颖顿庐
2025-12-15
安全
Wayland下RDP服务器的搭建
0
363
蚬蕞遂
2025-12-16
回复
(3)
沃盼盼
2025-10-29 22:52:04
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
龙正平
2025-10-31 02:16:37
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个有用。
沦嘻亟
2025-11-27 08:29:10
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
眺愤
2025-11-27 08:29:10
关注
0
粉丝关注
17
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
362
Avalonia源码解读:Grid(网格控件)
236
研究 TikTok 爆款的人,一定要懂这类下载工
956
Java Optional 完全指南:优雅处理 null 的
23
全面封禁 Cursor!又一家大厂出手了
877
记一次MySQL binlog日志导致磁盘空间占满的
776
记一次MySQL binlog日志导致磁盘空间占满的
876
小白也能看懂的RLHF-PPO:原理篇
301
小白也能看懂的RLHF-PPO:原理篇
277
2026年主流原型设计工具:Axure、墨刀功能
67
邮箱怎么群发邮件给多个人
588
27个行业创新实践一次看|HarmonyOS SDK案
143
秋的启迪
781
秋的启迪
499
不止编程!Claude Code 跨界应用指南:5 大
21
VictoriaMetrics 尝鲜
965
高频OTA时代,如何用SIL测试兼顾软件可靠性
868
ROS2概念之分布式通信
707
通过.ovf和.vmdk导入VMware虚拟机
620
酷狗音乐api接口抓取 | 音乐管理系统
652
吴恩达深度学习课程四:计算机视觉 第二周