找回密码
 立即注册
首页 业界区 安全 基于ubuntu系统部署FateLLM1.3.0

基于ubuntu系统部署FateLLM1.3.0

咳镘袁 2025-7-10 17:31:43
本文分享自天翼云开发者社区《基于ubuntu系统部署FateLLM1.3.0》,作者:刘****阳
一、基础环境
本次测试是基于K8S集群管理的两个POD节点进行部署,软硬件信息如下:
       服务器规格:  CPU:8c80G    GPU:V100/40G * 2
       系统环境:   ubuntu18.04-cuda11.7-deepspeed0.9.5
二、基础配置
1、安装基础依赖
  1. apt-get update
  2. apt-get install -y language-pack-en net-tools supervisor cron iputils-ping ansible openssh-server sudo vim strace
  3. service ssh start
  4. service ssh status
复制代码
2、配置用户及权限
  1. groupadd  apps
  2. useradd -s /bin/bash -g apps -d /home/app app
  3. passwd app
  4. # 输入app用户密码
  5. # -----------------------------------------------
  6. # 配置app用户sudo权限
  7. vi /etc/sudoers.d/app
  8. # 添加内容
  9. app ALL=(ALL) ALL
  10. app ALL=(ALL) NOPASSWD: ALL
  11. Defaults !env_reset
  12. # 给文件sudoers文件增加写入权限
  13. chmod u+w /etc/sudoers
  14. vim /etc/sudoers
  15. # 在root ALL=(ALL) ALL下面追加:
  16. root ALL=(ALL) NOPASSWD: ALL
  17. app ALL=(ALL) ALL
  18. app ALL=(ALL) NOPASSWD: ALL
  19. # 删除写入权限
  20. chmod u-w /etc/sudoers
  21. # ------------------------------------------------
  22. # 配置自身免密登录
  23. su app
  24. ssh-keygen -t rsa
  25. cat /home/app/.ssh/id_rsa.pub >>/home/app/.ssh/authorized_keys
  26. chmod 600 /home/app/.ssh/authorized_keys
复制代码
3、创建文件目录并赋予权限
  1. mkdir -pv /data/projects /data/temp /data/logs /data/soft /home/app
  2. chown -R app:apps /data/* /home/app
复制代码
4、下载软件包
  1. # 使用Ansible方式进行部署
  2. su app
  3. cd /data/soft/
  4. wget ****************************/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline.tar.gz
  5. # 解压文件
  6. cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
  7. #安装fate所需的基础环境
  8. bash tools/install_base.sh
复制代码
可以将基础步骤打包成镜像,分发到其余节点。
三、FateLLM框架安装
1、初始化
  1. cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
  2. # 在host节点初始化host
  3. bash deploy/deploy.sh init -h="10000:XXX.XXX.XXX.XXX"
  4. # 在guest节点初始化guest
  5. bash deploy/deploy.sh init -g="9999:XXX.XXX.XXX.XXX"
  6. # 初始化后会在deploy/conf文件夹下生成conf文件,可配置安装的组件
复制代码
2、生成ansible配置文件
  1. cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
  2. # 在host节点初始化host
  3. bash deploy/deploy.sh render
  4. # 会生成var_files/prod文件夹
  5. # 各组件的用户密码可在此进行修改
复制代码
3、进行部署操作
  1. cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
  2. # 在host节点和guest节点分别进行部署
  3. bash deploy/deploy.sh deploy
  4. # 安装部署日志提示无报错后,安装成功
复制代码
4、进行基础测试
  1. # 单边测试
  2. # host节点执行
  3. source /data/projects/fate/bin/init_env.sh
  4. flow test toy -gid 10000 -hid 10000
  5. # guest节点执行
  6. source /data/projects/fate/bin/init_env.sh
  7. flow test toy -gid 9999 -hid 9999
  8. # 执行成功后会返回正确结果
  9. (2)配置route_table
  10. # 在host节点添加guest路由信息
  11. vim /data/projects/fate/eggroll/conf/route_table.json
  12. 在路由信息中添加
  13. "9999":
  14.     {
  15.       "default":[
  16.         {
  17.           "port": XXXX,
  18.           "ip": "XXX,XXX,XXX,XXX"
  19.         }
  20.       ]
  21.     }
  22. # 同理在guest节点添加host信息
  23. (3)进行双边基础测试
  24. flow test toy -gid 9999 -hid 10000
  25. # 注意在哪个节点执行哪个节点为guest
复制代码
 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册