统信 UOS 服务器版离线部署 DeepSeek 攻略

article/2025/6/8 10:24:09

日前,DeepSeek 系列模型因拥有“更低的成本、更强的性能、更好的体验”三大核心优势,在全球范围内备受瞩目。

本次,我们为大家提供了在统信 UOS 服务器版 V20(AMD64 或 ARM64 架构)上本地离线部署 DeepSeek-R1 模型的攻略,以帮助您顺利完成 DeepSeek-R1 模型部署。

注:(1)部署前,请保证 BaseOS、AppStream、PowerTools、Plus、os 和 everything 源均可用。

(2)部署时,若找不到对应的安装包或对操作步骤有疑问,请联系我们。

单机部署 Ollama+DeepSeek+OpenWebUI

Step 1:防火墙放行端口 

执行如下命令,在防火墙中开放 11434 和 3000 端口。

firewall-cmd  --add-port=11434/tcp  --permanentfirewall-cmd  --add-port=3000/tcp  --permanentfirewall-cmd  --reload

注:11434 端口将用于 Ollama 服务,3000 端口将用于 OpenWebUI 服务。

Step 2:部署 Ollama

1、执行 dnf install -y ollama 命令,安装 Ollama 软件包。

图片

2、在/usr/lib/systemd/system/ollama.service服务配置文件中的 [Service] 下新增如下两行内容,分别用于配置远程访问和跨域请求:

Environment="OLLAMA_HOST=0.0.0.0"Environment="OLLAMA_ORIGINS=*"

3、执行 systemctl daemon-reload 命令,更新服务配置。

4、执行 systemctl enable --now ollama 命令,启动 Ollama 服务。

Step 3:拉取 DeepSeek-R1 模型

执行 ollama pull deepseek-r1:1.5b 命令,拉取 DeepSeek-R1 模型。

图片

注:1.5b 代表模型具备 15 亿参数,您可以根据部署机器的性能将其按需修改为 7b、8b、14b 和 32b 等。

Step 4:部署 OpenWebUI

1、执行 dnf install -y docker 命令,安装 docker。

图片

2、执行 systemctl enable --now docker 命令,启动 docker 服务。

3、执行如下命令,运行 OpenWebUI。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data--name open-webui --restart always ghcr.io/open-webui/open-webui:main

Step 5:通过浏览器访问交互界面

1、打开浏览器,访问 http://IP:3000。其中,您需将 IP 替换为部署机器的实际 IP 地址。

2、登录交互界面。请注意,首次访问交互界面时,需要先注册一个账号。

3、在界面左上角,选择 deepseek-r1:1.5b 模型后,输入消息即可开始对话。

图片

集群部署Kubernetes + KubeRay + vLLM + FastAPI

Step 1:创建 Kubernetes 集群 

1、使用 kubeadm 工具,并将 containerd 作为容器运行时,创建Kubernetes 集群。

注:下文以创建一个包含 1 个控制平面节点、1 个 CPU 工作节点(8 vCPUs + 32GB memory)和 2 个 GPU 工作节点(4 vCPUs + 32 GB memory + 1 GPU + 16GB GPU memory)的 Kubernetes 集群为例进行介绍。

2、安装 NVIDIA 设备驱动 nvidia-driver、NVIDIA 容器工具集 nvidia-container-toolkit。

dnf install -y nvidia-driver nvidia-container-toolkit

3、配置 nvidia-container-runtime 作为 containerd 底层使用的低层级容器运行时。

nvidia-ctk runtime configure --runtime=containerd systemctl restart containerd

4、在 Kubernetes 上部署 GPU 设备插件。

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.17.0/deployments/static/nvidia-device-plugin.yml

5、执行 kubectl get nodes 命令,获取 2 个 GPU 工作节点的节点名字,并为 GPU 节点设置污点。

kubectl taint nodes <gpu节点1名字> gpu=true:NoSchedule kubectl taint nodes <gpu节点2名字> gpu=true:NoSchedule

Step 2:编写Ray Serve应用示例(vLLM 模型推理服务应用)

请基于 ray-ml 官方镜像,添加 vLLM,并配置 Ray 和 vLLM。

应用程序将使用 vLLM 提供模型推理服务,通过 Hugging Face 下载模型文件,并通过 FastAPI 提供兼容 OpenAI API 的 API 服务。

注:下文中提到的 registry.uniontech.com/uos-app/vllm-0.6.5-ray-2.40.0.22541c-py310-cu121-serve:latest  为打包好的 Ray Serve 示例应用的容器镜像。

Step 3:在 Kubernetes 上创建 Ray 集群

1、安装 KubeRay。

#安装Helm工具dnf install -y helm#配置Kuberay官方Helm仓库helm repo add kuberay https://ray-project.github.io/kuberay-helm/  #安装kuberay-operator helm install kuberay-operator kuberay/kuberay-operator --version 1.2.2#安装kuberay-apiserverhelm install kuberay-apiserver kuberay/kuberay-apiserver --version 1.2.2

2、执行 kubectl get pods 命令,获取 kuberay-apiserver 的 pod 名字,例如 kuberay-apiserver-857869f665-b94px,并配置 KubeRay API Server 的端口转发。

kubectl port-forward <kubeary-apiserver的Pod名> 8888:8888

3、创建一个名字空间,用于驻留与 Ray 集群相关的资源。

kubectl create ray-blog

4、向http://localhost:8888/apis/v1/namespaces/ray-blog/compute_templates

分别发送带有如下两个请求体的 POST 请求。

注:每个 Ray 集群由一个头节点 Pod 和一组工作节点 Pod 组成。

Ray 头节点 Pod:

{    "name": "ray-head-cm",    "namespace": "ray-blog",    "cpu": 5,    "memory": 20}

Ray 工作节点 Pod:

{    "name": "ray-worker-cm",    "namespace": "ray-blog",    "cpu": 3,    "memory": 20,    "gpu": 1,    "tolerations": [    {      "key": "gpu",      "operator": "Equal",      "value": "true",      "effect": "NoSchedule"    }  ]}

可借助系统里的 curl 命令发送请求:​​​​​​​

curl -X POST "http://localhost:8888/apis/v1/namespaces/ray-blog/compute_templates" \     -H "Content-Type: application/json" \     -d '{           "name": "ray-head-cm",           "namespace": "ray-blog",           "cpu": 5,           "memory": 20         }'​​​​​​​
curl -X POST "http://localhost:8888/apis/v1/namespaces/ray-blog/compute_templates" \     -H "Content-Type: application/json" \     -d '{           "name": "ray-worker-cm",           "namespace": "ray-blog",           "cpu": 3,           "memory": 20,           "gpu": 1,           "tolerations": [             {               "key": "gpu",               "operator": "Equal",               "value": "true",               "effect": "NoSchedule"             }           ]         }'

5、向http://localhost:8888/apis/v1/namespaces/ray-blog/clusters 发送带有如下请求体的 POST 请求。​​​​​​​

{   "name":"ray-vllm-cluster",   "namespace":"ray-blog",   "user":"ishan",   "version":"v1",   "clusterSpec":{      "headGroupSpec":{         "computeTemplate":"ray-head-cm",         "rayStartParams":{            "dashboard-host":"0.0.0.0",            "num-cpus":"0",            "metrics-export-port":"8080"         },         "image":"registry.uniontech.com/uos-app/vllm-0.6.5-ray-2.40.0.22541c-py310-cu121-serve:latest",         "imagePullPolicy":"Always",         "serviceType":"ClusterIP"      },      "workerGroupSpec":[         {            "groupName":"ray-vllm-worker-group",            "computeTemplate":"ray-worker-cm",            "replicas":2,            "minReplicas":2,            "maxReplicas":2,            "rayStartParams":{               "node-ip-address":"$MY_POD_IP"            },            "image":"registry.uniontech.com/uos-app/vllm-0.6.5-ray-2.40.0.22541c-py310-cu121-serve:latest",            "imagePullPolicy":"Always",            "environment":{               "values":{                  "HUGGING_FACE_HUB_TOKEN":"<your_token>"               }            }         }      ]   },   "annotations":{      "ray.io/enable-serve-service":"true"   }}

可借助系统里的 curl 命令发送请求:​​​​​​​

curl -X POST "http://localhost:8888/apis/v1/namespaces/ray-blog/clusters" \     -H "Content-Type: application/json" \     -d '{           "name": "ray-vllm-cluster",           "namespace": "ray-blog",           "user": "ishan",           "version": "v1",           "clusterSpec": {             "headGroupSpec": {               "computeTemplate": "ray-head-cm",               "rayStartParams": {                 "dashboard-host": "0.0.0.0",                 "num-cpus": "0",                 "metrics-export-port": "8080"               },               "image": "registry.uniontech.com/uos-app/vllm-0.6.5-ray-2.40.0.22541c-py310-cu121-serve:latest",               "imagePullPolicy": "Always",               "serviceType": "ClusterIP"             },             "workerGroupSpec": [               {                 "groupName": "ray-vllm-worker-group",                 "computeTemplate": "ray-worker-cm",                 "replicas": 2,                 "minReplicas": 2,                 "maxReplicas": 2,                 "rayStartParams": {                   "node-ip-address": "$MY_POD_IP"                 },                 "image": "registry.uniontech.com/uos-app/vllm-0.6.5-ray-2.40.0.22541c-py310-cu121-serve:latest",                 "imagePullPolicy": "Always",                 "environment": {                   "values": {                     "HUGGING_FACE_HUB_TOKEN": "<your_token>"                   }                 }               }             ]           },           "annotations": {             "ray.io/enable-serve-service": "true"           }}'

Step4:部署 Ray Serve 应用

1、执行 kubectl get services -n ray-blog 命令,获取 head-svc 服务的名字,例如 kuberay-head-svc,并配置端口转发。

kubectl port-forward service/<head-svc服务名> 8265:8265 -n ray-blog

2、向 http://localhost:8265/api/serve/applications/ 发送带有如下请求体的 PUT 请求。​​​​​​​

{

   "applications":[     {         "import_path":"serve:model",         "name":"deepseek-r1",         "route_prefix":"/",         "autoscaling_config":{            "min_replicas":1,            "initial_replicas":1,            "max_replicas":1         },         "deployments":[            {               "name":"VLLMDeployment",               "num_replicas":1,               "ray_actor_options":{                }            }         ],         "runtime_env":{            "working_dir":"file:///home/ray/serve.zip",            "env_vars":{               "MODEL_ID":"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",               "TENSOR_PARALLELISM":"1",               "PIPELINE_PARALLELISM":"2",               "MODEL_NAME":"deepseek_r1"            }         }      }   ]}

可借助系统里的 curl 命令发送请求:​​​​​​​

curl -X PUT "http://localhost:8265/api/serve/applications/" \     -H "Content-Type: application/json" \     -d '{           "applications": [             {               "import_path": "serve:model",               "name": "deepseek-r1",               "route_prefix": "/",               "autoscaling_config": {                 "min_replicas": 1,                 "initial_replicas": 1,                 "max_replicas": 1               },               "deployments": [                 {                   "name": "VLLMDeployment",                   "num_replicas": 1,                   "ray_actor_options": {}                 }               ],               "runtime_env": {                 "working_dir": "file:///home/ray/serve.zip",                 "env_vars": {                   "MODEL_ID": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",                   "TENSOR_PARALLELISM": "1",                   "PIPELINE_PARALLELISM": "2",                   "MODEL_NAME": "deepseek_r1"                 }               }             }           ]         }'

发送请求后,需要一定的时间等待部署完成,应用达到 healthy 状态。

Step 5:访问模型进行推理

1、执行 kubectl get services -n ray-blog 命令,获取 head-svc 服务的名字,例如 kuberay-head-svc,并配置端口转发。

2、向http://localhost:8000/v1/chat/completions 发送带有如下请求体的 POST 请求。​​​​​​​

{    "model": "deepseek_r1",    "messages": [        {            "role": "user",            "content": "介绍一下你"        }    ]}

可借助系统里的 curl 命令发送请求:​​​​​​​

curl -X POST "http://localhost:8000/v1/chat/completions" \     -H "Content-Type: application/json" \     -d '{           "model": "deepseek_r1",           "messages": [             {               "role": "user",               "content": "介绍一下你"            }           ]         }'

性能调优GPU内核级优化​​​​​​​

# 锁定GPU频率至最高性能sudo nvidia-smi -lgc 1780,1780  # 3060卡默认峰值频率# 启用持久化模式sudo nvidia-smi -pm 1 # 启用MPS(多进程服务)sudo nvidia-cuda-mps-control -d

内存与通信优化​​​​​​​

# 在模型代码中添加(减少内存碎片)torch.cuda.set_per_process_memory_fraction(0.9) # 启用激活检查点(Activation Checkpointing)from torch.utils.checkpoint import checkpointdef forward(self, x):    return checkpoint(self._forward_impl, x)

内核参数调优

#调整swappiness参数,控制着系统将内存数据交换到磁盘交换空间的倾向,取值范围 0 - 100。echo "vm.swappiness = 10" | sudo tee -a /etc/sysctl.conf
# 调整网络参数echo "net.core.rmem_max = 134217728" | sudo tee -a /etc/sysctl.confecho "net.core.wmem_max = 134217728" | sudo tee -a /etc/sysctl.confecho "net.core.somaxconn = 65535"   | sudo tee -a /etc/sysctl.conf
# 然后执行以下命令使修改生效sudo sysctl -p

核心概念

DeepSeek

DeepSeek 模型是由中国 AI 公司深度求索开发的一款大型语言模型,拥有高效的架构和创新的训练策略。DeepSeek 模型在数学推理、代码生成和知识理解等方面表现突出,可广泛应用于教育培训、内容创作、科研探索等领域。

Ollama

Ollama 是一个基于 Go 语言开发的开源框架,旨在简化大型语言模型的安装、运行和管理过程。它支持多种大型语言模型,如 LLaMA、DeepSeek等,并提供与 OpenAI 兼容的 API 接口,方便开发者和企业快速搭建私有化 AI 服务。

OpenWebUI

OpenWebUI 是一个可扩展的、功能丰富且界面友好的大模型对话平台。它支持多种大型语言模型运行器,包括与 Ollama 和 OpenAI 兼容的 API。

Kubernetes

Kubernetes(简称 K8s)是一个容器编排平台,旨在自动化部署、扩展和管理容器化的应用程序。通过其丰富的 API 和可扩展性设计,K8s 能够支持公有云、私有云、混合云等多种环境,广泛应用于微服务架构、大数据处理、DevOps 及云原生应用等领域。

kubeRay

Ray 是一个通用的分布式计算编程框架,可用于扩展和并行化 AI 应用程序,实现并行化和分布式地处理跨多节点、多 GPU 的 AI 工作负载。KubeRay 是Kubernetes 上托管 Ray 集群和部署 Ray 分布式应用的集成工具集。

vLLM

vLLM 是一个快速且易于使用的库,专为大型语言模型的推理和部署而设计。vLLM 无缝集成 HuggingFace,提供 OpenAI API 兼容的 HTTP 服务,支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron 等硬件,支持张量并行和流水线并行的分布式推理。

FastAPI

FastAPI 是一个现代、高性能的 Web API 框架,用于部署提供本地模型的 API 服务。


http://www.hkcw.cn/article/kWpERyFppo.shtml

相关文章

6月2日day43打卡

复习日 作业&#xff1a; kaggle找到一个图像数据集&#xff0c;用cnn网络进行训练并且用grad-cam做可视化 进阶&#xff1a;并拆分成多个文件 任务写了两天&#xff0c;第一天找到一个数据集Stanford Cars Dataset&#xff08;斯坦福汽车数据集&#xff09;&#xff1a; 1. 基…

机器学习——聚类算法

一、聚类的概念 根据样本之间的相似性&#xff0c;将样本划分到不同的类别中的一种无监督学习算法。 细节&#xff1a;根据样本之间的相似性&#xff0c;将样本划分到不同的类别中&#xff1b;不同的相似度计算方法&#xff0c;会得到不同的聚类结果&#xff0c;常用的相似度…

蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析

目录 一、引言 DS18B20的原理图 单总线简介&#xff1a; ​编辑暂存器简介&#xff1a; DS18B20的温度转换与读取流程 二、代码配置 maic文件 疑问 关于不同格式化输出符号的使用 为什么要rd_temperature()/16.0&#xff1f; onewire.h文件 这个配置为什么要先读lo…

SuperMap GIS基础产品FAQ集锦(20250603)

一、SuperMap iDesktopX 问题1&#xff1a;这种投影坐标如何转换成China_2000的&#xff1f; 11.2.0 【解决办法】在数据源属性中&#xff0c;选择坐标系下的投影转换&#xff0c;然后指定转换结果的坐标系为China_2000 问题2&#xff1a;SuperMap iDesktopX 影像导出时&am…

【js 图片批量自定义打包下载】

压缩图片打包本地下载 一、依赖安转二、函数封装三、打包压缩四、应用五、示例图 一、依赖安转 打包工具 npm install file-saver --save npm install jszip --save二、函数封装 对图片进行处理 function getBase64Image(src) {return new Promise((resolve, reject) > …

如何轻松地将数据从 iPhone传输到iPhone 16

对升级到 iPhone 16 感到兴奋吗&#xff1f;恭喜&#xff01;然而&#xff0c;除了兴奋之外&#xff0c;学习如何将数据从 iPhone 传输到 iPhone 16 也很重要。毕竟&#xff0c;那些重要的联系人、笔记等都是不可或缺的。为了实现轻松的iPhone 到 iPhone 传输&#xff0c;我们总…

Adobe Acrobat——设置PDF打印页面的大小

1. 打开 PDF 文件&#xff1b; 2. 点击菜单栏的 “文件” → “打印”&#xff1b; 3. 在打印对话框中&#xff0c;点击 “属性”&#xff1b; 4. 点击 “布局”→ “高级”&#xff1b; 5. 点击 “纸张规格”&#xff0c;选择 “PostScript 自定义页面大小”&#xff0c;然后…

胜牌™全球成为2026年FIFA世界杯™官方赞助商

胜牌全球将首次与国际足联&#xff08;FIFA&#xff09;旗舰赛事建立合作关系。 此次赞助恰逢美国首个润滑油品牌即将迎来160周年之际&#xff0c;其国际扩张步伐正在加快。 在这项全球顶级赛事筹备期间&#xff0c;胜牌全球将通过各种富有创意的零售和体验活动与球迷互动。 …

mpg123在MSVC编译器中使用。

官网下载&#xff1a; 下载后打开以下窗口程序&#xff1a; 在此窗口程序中打开所下载的mpg123文件夹。在此文件夹中输入以下命令&#xff1a; dumpbin /EXPORTS libsyn123-0.dll > libsyn123-0.exports lib /DEF:libsyn123-0.def /OUT:libsyn123-0.lib /MACHINE:x64其中…

【LangServe部署流程】5 分钟部署你的 AI 服务

目录 一、LangServe简介 二、环境准备 1. 安装必要依赖 2. 编写一个 LangChain 可运行链&#xff08;Runnable&#xff09; 3. 启动 LangServe 服务 4. 启动服务 5. 使用 API 进行调用 三、可选&#xff1a;访问交互式 Swagger 文档 四、基于 LangServe 的 RAG 应用部…

苍穹外卖--HttpClient

1.介绍 HttpClient是Apache Jakarta Common下的子项目&#xff0c;可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包&#xff0c;并且它支持HTTP协议最新的版本和建议 依赖&#xff1a; 核心API&#xff1a; ①HTTPClient ②HTTPClients ③Closeabl…

最佳实践 | 璞华易研“PLM+AI智能研发平台”,助力汉旸科技实现高新材料“数据驱动研发”

合作动态 | PURVAR 日前&#xff0c;汉旸科技与璞华科技达成战略合作&#xff0c;正式引入璞华易研PLMAI智能研发平台。双方基于行业技术需求与数字化转型目标&#xff0c;快速完成研发全流程数字化管理框架的顶层设计与蓝图规划&#xff0c;为技术迭代与产品创新奠定坚实的数…

MongoDB数据库学习

学习链接&#xff1a;https://www.runoob.com/mongodb/mongodb-tutorial.html 图解MongoDB数据库学习路线指南 MongoDB初级 1. 基本概念学习 一定要记住的概念&#xff1a; 文档是一组键值(key-value)对(即 BSON)。 集合就是 MongoDB 文档组&#xff0c;类似于 RDBMS &…

软考 系统架构设计师系列知识点之杂项集萃(79)

接前一篇文章&#xff1a;软考 系统架构设计师系列知识点之杂项集萃&#xff08;78&#xff09; 第141题 软件测试一般分为两个大类&#xff1a;动态测试和静态测试。前者通过运行程序发现错误&#xff0c;包括&#xff08;&#xff09;等方法&#xff1b;后者采用人工和计算机…

分布式拜占庭容错算法——PBFT算法深度解析

Java 实现PBFT算法深度解析 一、PBFT核心流程 #mermaid-svg-3DQWQzd1C7QGWkMv {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3DQWQzd1C7QGWkMv .error-icon{fill:#552222;}#mermaid-svg-3DQWQzd1C7QGWkMv .error-…

【LUT技术专题】图像自适应3DLUT代码讲解

本文是对图像自适应3DLUT技术的代码解读&#xff0c;原文解读请看图像自适应3DLUT文章讲解 1、原文概要 结合3D LUT和CNN&#xff0c;使用成对和非成对的数据集进行训练&#xff0c;训练后能够完成自动的图像增强&#xff0c;同时还可以做到极低的资源消耗。下图为整个模型的…

Docker 在 AI 开发中的实践:GPU 支持与深度学习环境的容器化

人工智能(AI)和机器学习(ML),特别是深度学习,正以前所未有的速度发展。然而,AI 模型的开发和部署并非易事。开发者常常面临复杂的依赖管理(如 Python 版本、TensorFlow/PyTorch 版本、CUDA、cuDNN)、异构硬件(CPU 和 GPU)支持以及环境复现困难等痛点。这些挑战严重阻…

COMSOL多边形骨料堆积混凝土水化热传热模拟

混凝土水化热温降研究对保障结构安全与耐久性至关重要&#xff0c;温升后温差易引发温度应力&#xff0c;导致裂缝。本案例介绍在COMSOL内建立多边形骨料堆积混凝土细观模型&#xff0c;并对水化热产生后的传热及温度变化进行仿真模拟。 骨料堆积混凝土细观模型采用CAD多边形…

vue入门环境搭建及demo运行

提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 vue简介&#xff1a;第一步&#xff1a;安装node.jsnode简介第二步&#xff1a;安装vue.js第三步&#xff1a;安装vue-cli工具第四步 &#xff1a;安装webpack第五步…

OpenCV CUDA模块图像处理------图像融合函数blendLinear()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 该函数执行 线性融合&#xff08;加权平均&#xff09; 两个图像 img1 和 img2&#xff0c;使用对应的权重图 weights1 和 weights2。 融合公式…