DeepSeek-R1 本地部署
Nvidia显卡管理 nvidia-smi
## 1.查看显卡信息
# 由于测试环境使用的是NVIDIA的显卡,这里直接通过lspci命令即可查询具体显卡信息
lspci | grep -i nvidia
lspci -v -s 00:06.0
## 2.查看显存以及GPU的使用情况
# Nvidia自带一个命令行工具可以查看显存的使用情况:nvidia-smi
# 参数解释:
Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;
Temp:显卡内部的温度,单位是摄氏度;
Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU总线的相关信息;
Disp.A:是Display Active的意思,表示GPU的显示是否初始化;
Memory Usage:显存的使用率;
Volatile GPU-Util:浮动的GPU利用率;
Compute M:计算模式;
## 3.周期性的输出显卡的使用情况
# 可以参考如下命令:
watch -n 5 nvidia-smi
# 命令行参数-n后边跟的是执行命令的周期,以s为单位。
## 常用管理命令
# 1.列出所有可用的Nvidia设备
nvidia-smi -L
# 2.列出每个GPU卡的详细信息
nvidia-smi --query-gpu=index,name,uuid,serial --format=csv
# 3.查询某个GPU卡的详细信息(指定GPU卡的id,只截图一部分)
nvidia-smi -i 0 -q
# 4.要以1秒的更新间隔监控GPU的总体使用情况
nvidia-smi dmon
# 5.要以1秒的更新间隔监视每个进程的GPU使用情况
nvidia-smi pmon
# 6.加上-pm参数可设置持久模式:0/禁用,1/启用
nvidia-smi -pm 1
# 7.加上-e参数可以切换ECC支持:0/禁用,1/启用
nvidia-smi -e 1
# 8. 加上-r参数可以重启某个GPU卡(0是GPU卡的序号)
nvidia-smi -r -i 0
DeepSeek-R1 本地部署
## DeepSeek-R1 本地部署
# Ollama是一个开源的AI模型管理工具,用于简化AI模型的部署和管理。它支持多种模型格式,能够与DeepSeek R1无缝集成。以下是Ollama的安装步骤:
# 1. 下载Ollama:访问Ollama的官方网站或GitHub页面,下载最新版本的安装包:https://ollama.com/download
# 2. 安装Ollama:
# (1)对于Windows系统,双击安装包并按照提示完成安装。
# (2)对于Linux系统,使用以下命令安装:
curl -fsSL https://ollama.com/install.sh | sh
sudo usermod -aG ollama $USER # 将当前用户加入ollama组newgrp ollama # 刷新用户组
systemctl start ollama # 启动服务systemctl enable ollama # 开机自启
ollama --version # 输出版本号即成功
vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
systemctl daemon-reload
systemctl restart ollama
# 3. 启动Ollama服务:安装完成后,运行以下命令查看是否安装成功:
# 指定运行显卡
CUDA_VISIBLE_DEVICES=0,1
# ollama serve # 或
systemctl start ollama
ollama -v
# 4. 验证安装:打开浏览器,访问http://localhost:11434,如果页面显示Ollama的界面,则说明安装成功。
http://172.16.100.36:11434
# 进入ollama的模型库,选择deepseek-r1
# 如果使用 4-bit 量化,显存需求:1.5B:约 1 GB; 7B:约 4 GB ;8B:约 4.5 GB; 14B:约 8 GB; 32B:约 18 GB; 70B:约 40 GB
# 使用对应的命令安装deepseek模型:
ollama pull deepseek-r1:7b # 官方推荐模型名称
ollama run deepseek-r1:7b
ollama run deepseek-r1:14b
ollama --help
Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command
# 场景1:纯CPU运行
# 适用情况:无独立显卡或显存不足
# 限制线程数(避免资源耗尽):
OLLAMA_NUM_THREADS=4
ollama run deepseek-r1 # 限制4线程
# 使用量化模型(减少内存占用):
ollama pull deepseek-r1:7b-q4_0 # 4-bit量化版
# 内存要求:
# 7B模型:至少8GB空闲内存
# 33B模型:至少32GB空闲内存
# 场景2:CPU+GPU混合运行
# 适用情况:有NVIDIA显卡(需CUDA支持)
# 安装 NVIDIA驱动 和 CUDA Toolkit 12.x
gcc --version
sudo apt install gcc
# 安装工具make
sudo yum install build-essential
wget https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
sudo sh cuda_12.6.3_560.35.05_linux.run
nvidia-smi
# 显存要求:
# 7B模型:至少6GB显存
# 33B模型:至少20GB显存
nvidia-smi # 查看GPU利用率
## Chatbox AI简介与安装
# Chatbox AI是一个基于对话的AI平台,能够实现自然语言交互。它支持多种语言和场景,可以与Ollama和DeepSeek R1配合使用,提供更丰富的交互体验。以下是Chatbox AI的安装步骤:
# 1. 下载Chatbox AI:访问Chatbox AI的官方网站,下载最新版本的安装包: https://chatboxai.app/zh
# 2. 安装Chatbox AI:
# (1)对于Windows系统,解压下载的文件,并运行安装程序。
# (2)对于Linux系统,使用以下命令运行:
sudo ./Chatbox-1.9.5-x86_64.AppImage
# 3. 配置Chatbox AI:打开配置文件config.json或者直接打开ui,根据需要修改参数,例如连接Ollama的地址等。
# 进入软件后点击设置,然后选择ollama的api,加载之前下载的模型即可。