DeepSeek-R1 本地部署

DeepSeek-R1 本地部署

Nvidia显卡管理 nvidia-smi

## 1.查看显卡信息
# 由于测试环境使用的是NVIDIA的显卡,这里直接通过lspci命令即可查询具体显卡信息

lspci | grep -i nvidia

lspci -v -s 00:06.0

## 2.查看显存以及GPU的使用情况
# Nvidia自带一个命令行工具可以查看显存的使用情况:nvidia-smi
# 参数解释:

Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;

Temp:显卡内部的温度,单位是摄氏度;

Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;

Pwr:能耗表示;

Bus-Id:涉及GPU总线的相关信息;

Disp.A:是Display Active的意思,表示GPU的显示是否初始化;

Memory Usage:显存的使用率;

Volatile GPU-Util:浮动的GPU利用率;

Compute M:计算模式;

## 3.周期性的输出显卡的使用情况
# 可以参考如下命令:

watch -n 5 nvidia-smi

# 命令行参数-n后边跟的是执行命令的周期,以s为单位。

## 常用管理命令
# 1.列出所有可用的Nvidia设备
nvidia-smi -L

# 2.列出每个GPU卡的详细信息
nvidia-smi --query-gpu=index,name,uuid,serial --format=csv

# 3.查询某个GPU卡的详细信息(指定GPU卡的id,只截图一部分)
nvidia-smi -i 0 -q

# 4.要以1秒的更新间隔监控GPU的总体使用情况
nvidia-smi dmon

# 5.要以1秒的更新间隔监视每个进程的GPU使用情况
nvidia-smi pmon

# 6.加上-pm参数可设置持久模式:0/禁用,1/启用
nvidia-smi -pm 1

# 7.加上-e参数可以切换ECC支持:0/禁用,1/启用
nvidia-smi -e 1

# 8. 加上-r参数可以重启某个GPU卡(0是GPU卡的序号)
nvidia-smi -r -i 0

DeepSeek-R1 本地部署

## DeepSeek-R1 本地部署
# Ollama是一个开源的AI模型管理工具,用于简化AI模型的部署和管理。它支持多种模型格式,能够与DeepSeek R1无缝集成。以下是Ollama的安装步骤:
#  1. 下载Ollama:访问Ollama的官方网站或GitHub页面,下载最新版本的安装包:https://ollama.com/download
#  2. 安装Ollama:
#   (1)对于Windows系统,双击安装包并按照提示完成安装。
#   (2)对于Linux系统,使用以下命令安装:
curl -fsSL https://ollama.com/install.sh | sh
sudo usermod -aG ollama $USER  # 将当前用户加入ollama组newgrp ollama                  # 刷新用户组
systemctl start ollama         # 启动服务systemctl enable ollama        # 开机自启
ollama --version               # 输出版本号即成功
vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
systemctl daemon-reload
systemctl restart ollama

#  3. 启动Ollama服务:安装完成后,运行以下命令查看是否安装成功:
# 指定运行显卡
CUDA_VISIBLE_DEVICES=0,1
# ollama serve # 或
systemctl start ollama 
ollama -v
#  4. 验证安装:打开浏览器,访问http://localhost:11434,如果页面显示Ollama的界面,则说明安装成功。
http://172.16.100.36:11434
# 进入ollama的模型库,选择deepseek-r1

# 如果使用 4-bit 量化,显存需求:1.5B:约 1 GB; 7B:约 4 GB ;8B:约 4.5 GB; 14B:约 8 GB; 32B:约 18 GB; 70B:约 40 GB
# 使用对应的命令安装deepseek模型:
ollama pull deepseek-r1:7b        # 官方推荐模型名称
ollama run deepseek-r1:7b
ollama run deepseek-r1:14b

ollama --help
Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

# 场景1:纯CPU运行
# 适用情况:无独立显卡或显存不足
# 限制线程数(避免资源耗尽):
OLLAMA_NUM_THREADS=4
ollama run deepseek-r1  # 限制4线程
# 使用量化模型(减少内存占用):
ollama pull deepseek-r1:7b-q4_0             # 4-bit量化版
# 内存要求:
# 7B模型:至少8GB空闲内存
# 33B模型:至少32GB空闲内存

# 场景2:CPU+GPU混合运行
# 适用情况:有NVIDIA显卡(需CUDA支持)
# 安装 NVIDIA驱动 和 CUDA Toolkit 12.x
gcc --version
sudo apt install gcc
# 安装工具make
sudo yum install build-essential
wget https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
sudo sh cuda_12.6.3_560.35.05_linux.run
nvidia-smi

# 显存要求:
# 7B模型:至少6GB显存
# 33B模型:至少20GB显存
nvidia-smi               # 查看GPU利用率

## Chatbox AI简介与安装
# Chatbox AI是一个基于对话的AI平台,能够实现自然语言交互。它支持多种语言和场景,可以与Ollama和DeepSeek R1配合使用,提供更丰富的交互体验。以下是Chatbox AI的安装步骤:
# 1. 下载Chatbox AI:访问Chatbox AI的官方网站,下载最新版本的安装包: https://chatboxai.app/zh
# 2. 安装Chatbox AI:
#  (1)对于Windows系统,解压下载的文件,并运行安装程序。
#  (2)对于Linux系统,使用以下命令运行:
sudo ./Chatbox-1.9.5-x86_64.AppImage
# 3. 配置Chatbox AI:打开配置文件config.json或者直接打开ui,根据需要修改参数,例如连接Ollama的地址等。
# 进入软件后点击设置,然后选择ollama的api,加载之前下载的模型即可。