DeepSeek-R1 本地部署

Nvidia显卡管理 nvidia-smi

## 1.查看显卡信息
# 由于测试环境使用的是NVIDIA的显卡，这里直接通过lspci命令即可查询具体显卡信息

lspci | grep -i nvidia

lspci -v -s 00:06.0

## 2.查看显存以及GPU的使用情况
# Nvidia自带一个命令行工具可以查看显存的使用情况：nvidia-smi
# 参数解释：

Fan：显示风扇转速，数值在0到100%之间，是计算机的期望转速，如果计算机不是通过风扇冷却或者风扇坏了，显示出来就是N/A；

Temp：显卡内部的温度，单位是摄氏度；

Perf：表征性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能；

Pwr：能耗表示；

Bus-Id：涉及GPU总线的相关信息；

Disp.A：是Display Active的意思，表示GPU的显示是否初始化；

Memory Usage：显存的使用率；

Volatile GPU-Util：浮动的GPU利用率；

Compute M：计算模式；

## 3.周期性的输出显卡的使用情况
# 可以参考如下命令：

watch -n 5 nvidia-smi

# 命令行参数-n后边跟的是执行命令的周期，以s为单位。

## 常用管理命令
# 1.列出所有可用的Nvidia设备
nvidia-smi -L

# 2.列出每个GPU卡的详细信息
nvidia-smi --query-gpu=index,name,uuid,serial --format=csv

# 3.查询某个GPU卡的详细信息（指定GPU卡的id，只截图一部分）
nvidia-smi -i 0 -q

# 4.要以1秒的更新间隔监控GPU的总体使用情况
nvidia-smi dmon

# 5.要以1秒的更新间隔监视每个进程的GPU使用情况
nvidia-smi pmon

# 6.加上-pm参数可设置持久模式：0/禁用，1/启用
nvidia-smi -pm 1

# 7.加上-e参数可以切换ECC支持：0/禁用，1/启用
nvidia-smi -e 1

# 8. 加上-r参数可以重启某个GPU卡（0是GPU卡的序号）
nvidia-smi -r -i 0

DeepSeek-R1 本地部署

## DeepSeek-R1 本地部署
# Ollama是一个开源的AI模型管理工具，用于简化AI模型的部署和管理。它支持多种模型格式，能够与DeepSeek R1无缝集成。以下是Ollama的安装步骤：
#  1. 下载Ollama：访问Ollama的官方网站或GitHub页面，下载最新版本的安装包：https://ollama.com/download
#  2. 安装Ollama：
#   （1）对于Windows系统，双击安装包并按照提示完成安装。
#   （2）对于Linux系统，使用以下命令安装：
curl -fsSL https://ollama.com/install.sh | sh
sudo usermod -aG ollama $USER  # 将当前用户加入ollama组newgrp ollama                  # 刷新用户组
systemctl start ollama         # 启动服务systemctl enable ollama        # 开机自启
ollama --version               # 输出版本号即成功
vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
systemctl daemon-reload
systemctl restart ollama

#  3. 启动Ollama服务：安装完成后，运行以下命令查看是否安装成功：
# 指定运行显卡
CUDA_VISIBLE_DEVICES=0,1
# ollama serve # 或
systemctl start ollama 
ollama -v
#  4. 验证安装：打开浏览器，访问http://localhost:11434，如果页面显示Ollama的界面，则说明安装成功。
http://172.16.100.36:11434
# 进入ollama的模型库，选择deepseek-r1

# 如果使用 4-bit 量化，显存需求：1.5B：约 1 GB; 7B：约 4 GB ;8B：约 4.5 GB; 14B：约 8 GB; 32B：约 18 GB; 70B：约 40 GB
# 使用对应的命令安装deepseek模型：
ollama pull deepseek-r1:7b        # 官方推荐模型名称
ollama run deepseek-r1:7b
ollama run deepseek-r1:14b

ollama --help
Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

# 场景1：纯CPU运行
# 适用情况：无独立显卡或显存不足
# 限制线程数（避免资源耗尽）：
OLLAMA_NUM_THREADS=4
ollama run deepseek-r1  # 限制4线程
# 使用量化模型（减少内存占用）：
ollama pull deepseek-r1:7b-q4_0             # 4-bit量化版
# 内存要求：
# 7B模型：至少8GB空闲内存
# 33B模型：至少32GB空闲内存

# 场景2：CPU+GPU混合运行
# 适用情况：有NVIDIA显卡（需CUDA支持）
# 安装 NVIDIA驱动 和 CUDA Toolkit 12.x
gcc --version
sudo apt install gcc
# 安装工具make
sudo yum install build-essential
wget https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
sudo sh cuda_12.6.3_560.35.05_linux.run
nvidia-smi

# 显存要求：
# 7B模型：至少6GB显存
# 33B模型：至少20GB显存
nvidia-smi               # 查看GPU利用率

## Chatbox AI简介与安装
# Chatbox AI是一个基于对话的AI平台，能够实现自然语言交互。它支持多种语言和场景，可以与Ollama和DeepSeek R1配合使用，提供更丰富的交互体验。以下是Chatbox AI的安装步骤：
# 1. 下载Chatbox AI：访问Chatbox AI的官方网站，下载最新版本的安装包: https://chatboxai.app/zh
# 2. 安装Chatbox AI：
#  （1）对于Windows系统，解压下载的文件，并运行安装程序。
#  （2）对于Linux系统，使用以下命令运行：
sudo ./Chatbox-1.9.5-x86_64.AppImage
# 3. 配置Chatbox AI：打开配置文件config.json或者直接打开ui，根据需要修改参数，例如连接Ollama的地址等。
# 进入软件后点击设置，然后选择ollama的api，加载之前下载的模型即可。