七三笔记

基础
Agent

在线部署·ollama 大模型文件格式离线部署·ollama 本地部署·vllm python环境 vllm与ollama对比参考

本地部署

 
https://mp.weixin.qq.com/s/3xW0NJVnMsc22R189w7YWQ

https://ollama.com/library/deepseek-r1


DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

ollama run deepseek-r1:14b

ollama run deepseek-r1:32b

ollama run deepseek-r1:70b

 
milVus向量数据库的安装步骤
https://blog.csdn.net/wangqiaowq/article/details/136163338

https://zhuanlan.zhihu.com/p/677763767


最近全网大火的报告，由清华新闻学院、人工智能学院双聘教授沈阳教授团队余梦珑博士后倾力打造
《DeepSeek：从入门到精通》1.0版发布！助你快速上手、精通运用，一起探索AI新视界。
链接: http://t.cn/A63evoRO 提取码: 9e72

 
官网：https://ollama.com

Github：https://github.com/ollama/ollama

 
curl -fsSL https://ollama.com/install.sh | sh

rm -rf /datai/bigmodel
sudo mkdir -p /datai/bigmodel/ollama
sudo chown -R bml:xt /datai/bigmodel/ollama

环境变量设置

 
export OLLAMA_MODELS=/datai/bigmodel/ollama

 
服务启动
ollama serve

bml@kl:~$ sudo netstat -tunlp|grep oll
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      21280/ollama

拉取大模型
ollama pull llama3
ollama run llama3
ollama rm llama3

ollama list

ollama run deepseek-r1:1.5b
ollama run deepseek-r1:8b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b

 
from openai import OpenAI

#ollama serve
#ollama list
client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='key',#必需但可以随便填写
)

chat_completion = client.chat.completions.create(
    messages=[{'role': 'user','content': '我要健康，但之间没有运行过，过开始适合做哪些运动',}],
    model='deepseek-r1:1.5b',
)

print(chat_completion.choices[0].message.content)

 
think
嗯，我想要找到一种既能保持健康又不需要在运动机器上走动的方法。之前总觉得如果经常健身的话挺不错的选择，主要是因为它能帮助我们提升身体素质和整体mindset。但是现在我觉得，可能有时候身体太忙了，或者说有些东西无法坚持下去，所以想试试其他的活动形式。

首先，我想到了瑜伽这个方法。听说瑜伽不仅能放松身心，还能增加对力量的感觉。但是我之前总觉得如果开始太多人说它不适合，特别是在没有特别运动能力的情况下。不过现在觉得，只要花时间在上面，应该是可以达到一定的效果。

然后是瑜伽流道。这个听起来比单纯的瑜伽要简单一些，适合需要练习更多动作的人。可能也容易坚持下去？但我不确定，不知道有没有别的更好的办法。

力量训练是另一种选择，比如举重或者带 weights。我觉得如果我能够找到好材料的话，可能就能完成，而且时间也不用太长，只要安排在下午或者晚上，感觉比较方便。不过要找合适的器械和方法可能需要花费一些时间。

力量骑车也是一个不错的选择，因为我可以跟自行车在一起跑。这样不仅锻炼身体，又能与朋友相处。但不知道是否适合所有人，特别是在一些人流量很大的时候。

跳绳是另外一个有趣的活动形式，因为它不用太多工具也能保持运动状态。不过，我想知道能不能找到有效的强度，否则可能会累伤。

力量球是一个容易理解的方式，可能能帮助我更好地放松和调节身体状态。不过我不确定是否有训练好的姿势，所以可能需要慢慢来。

力量划船和瑜伽划波也是比较有挑战性的活动，可能适合喜欢运动者。但会不会太紧张或者不适合我现在的健身量呢？

我可以尝试一些力量步行，如果能在下午或者晚上走几步，锻炼腰和 legs。这样可能可以同时进行不同的动作。

力量游泳，可能涉及到更长的距离，但如果我的时间允许的话，或许也能安排在傍晚或夜晚，让自己的身体有更多的运动机会。

力量跳舞，则不需要太多设备就能完成，感觉很轻松，特别是当周围的人不多的时候。这个方法可能会增加一些放松的过程，有助于全身的协调。

力量骑单车，如果我有自行车，可以在白天或晚上骑车前进和骑行的力量训练，这样也能保持活跃的运动模式。

力量划伞也是一个有趣的活动形式，可能需要找到一个适合他的伞方式来进行锻炼。不过我觉得在下雨天或者光线不好时可能会不太合适。

我觉得这些运动形式都需要时间和耐心，同时需要选择正确的器械和方法，所以可能需要慢慢来，逐步尝试，看看哪种最适合我现在的状态就好了。

也许我可以先从小规模的运动做起，比如简单的力量训练、瑜伽或者轻度步行，然后在坚持下来之后再来挑战更高强度的内容。如果一段时间后，感觉满意再往更高的级别发展比较好。

不过，在进行这些运动之前，我觉得需要确认一下自己对健身的兴趣和条件，确保自己能找到适合自己的锻炼方式。同时，避免过量的运动会影响健康，所以得权衡一下个人的需求和个人的生活习惯。

总之，我现在在寻找一种既能保持健康，又不经常用工具跑动的方法。经过一系列的想法和搜索，我认为比较实用的是力量训练、力量划船和力量跳舞这些活动形式。它们不需要太多工具也能有效地锻炼身体，同时还能让生活的其他部分保持轻松自在。
think

为了维持健康并减少可能的跑动次数，以下是一些适合你的方式：

1. **力量训练**：选择合适的锻炼器械（如杠铃、哑铃或带绳子使用的带 weights），在下午或晚上进行轻松的快节奏运动，持续30-60分钟。这能提升力量和协调感，同时不需要太多工具。

2. **力量划船与瑜伽划波**：如果喜欢挑战性的动作，请寻找适合你的划船姿势（如坐船、跨船等）。这些活动提供额外的锻炼，既能拉长距离也能增进肌肉放松，适合喜欢运动者的挑战。

3. **力量骑单车**：在天气温暖且没有太多人群时，可以选择骑行或滑板的方式。骑一辆自行车至早上或晚上完成少量步行，增加腰和腿的锻炼机会。

4. **力量跳舞与瑜伽**：在这个时候坐下，并坐在周围的朋友旁边做轻柔的跳跃练习。跳舞既放松身心又能让其他同伴感到轻松，特别适合在空旷环境中进行。

5. **力量球与力量划伞**：这些活动不需要设备也能拉近身体和释放肌肉紧张感。选择有适合自己姿势的伞方式进行力量球练习，同时在下雨天或光线较差时可以尝试划伞，注意安全。

6. **简单的力量训练或瑜伽流道**：无论时间多短，如果条件允许都可以安排一次力量流道或力量训练。这能帮助你保持适当的运动强度并增强动作。

7. **轻度步行与骑行**：在黄昏或黎明时分步行或骑行少量路段，这有助于放松全身肌肉，同时提升心肺功能。

这些运动形式既能有效锻炼身体又不涉及大量工具和机械，适合维持健康并且减少跑动次数。重要的是找到一个适合自己的方式来融入日常活动，以获得持续的运动体验。

 
from tpf.llm import chat_ollama
res = chat_ollama("上班很累了，办公看了一天的电脑，因为手机很好玩，下班后如何克制自己不玩手机？",model='deepseek-r1:1.5b')
print(res)

 
下班后克制自己不玩手机的策略如下：

1. **设定小目标**：每天设定完成几项任务的目标，比如完成几篇报告或处理几份文件，这样能激励自己坚持。

2. **利用提醒功能**：如果手机有提醒功能，定期设置关机提醒和充电提醒，帮助自己保持手机不被使用。

3. **选择安静环境**：在休息时找些安静的地方，如房间里的书桌或小本子，减少外界干扰。

4. **使用番茄工作法**：每天固定时间专注工作，比如25分钟专注，然后休息5分钟，这样高效又不容易分心。

5. **利用语音助手**：与家人或朋友聊天，缓解压力，同时也能保持手机的使用状态。

6. **选择替代工具**：如果手机没电，可以听音乐、看视频或用简单的任务完成工具（如番茄工作法）来代替。

通过这些方法，可以在不玩手机的情况下提升工作效率，帮助自己更好地放松和专注。

 

mkdir deepseek
export OLLAMA_MODELS=/root/deepseek

curl -fsSL https://ollama.com/install.sh | sh

nohup ollama serve &

ollama pull deepseek-r1:32b

 
ssh -L 11435:localhost:11434 root@px-asia-3.matpool.com -p 29825 -N -q

大模型文件格式

 
简介
safetensors 是由 Hugging Face 提出的一种安全、高效的机器学习模型权重存储格式。
它旨在替代传统的 PyTorch .pt 或 .pth 文件，
解决后者因使用 pickle 序列化可能存在的安全漏洞（如恶意代码执行）问题。

核心特点

1. 安全性
文件仅存储张量数据，不包含可执行代码，避免了反序列化时的恶意代码注入风险。
通过限制文件头大小（如 100MB）和内存访问范围，防止极端情况下的内存溢出攻击。

2. 高效加载

零拷贝技术：支持内存直接映射（mmap），跳过不必要的 CPU 数据复制，在 Linux 系统上加载速度比 PyTorch 快 2 倍。
惰性加载：允许仅加载部分张量，适合分布式或多 GPU 场景。

3. 跨框架兼容性

支持 PyTorch、TensorFlow 等框架，但主要集成于 Hugging Face 生态，常用于快速部署和安全敏感的模型共享。

4. 局限性

未包含模型的元数据（如架构、超参数），依赖外部配置文件。
在大模型的高效序列化、量化支持等方面较弱。

 
简介
.gguf（GPT-Generated Unified Format）由 Georgi Gerganov（llama.cpp 创始人）设计，
专为大规模语言模型（LLM）优化，是 GGML 格式的继任者。
它通过二进制编码和内存映射技术，显著提升模型加载效率，并支持量化以降低资源消耗。

核心特点
高效性与跨平台支持
内存映射（mmap）：直接从磁盘加载模型到内存，减少内存占用和启动时间，尤其适合 CPU 推理。
单文件部署：包含所有元数据（如模型架构、超参数），无需额外依赖文件，简化跨平台共享。

量化支持
支持从 2 位到 8 位的多种量化方案（如 Q4_K、Q5_K），平衡模型精度与资源消耗，显著减小文件体积（如 70B 模型可从 140GB 压缩至 20GB）。
量化参数可灵活配置，适用于低资源设备（如手机、边缘计算）。

可扩展性与兼容性
元数据采用键值对结构，支持向后兼容的格式扩展。
可通过官方工具将 PyTorch、Safetensors 等格式转换为 GGUF。

应用场景
主要用于大语言模型（如 LLaMA、Gemma、Qwen）的推理部署，在 Hugging Face 上有超过 6000 个 GGUF 模型。
文件名通常以 Q+位数+变体 命名（如 q4_k_m.gguf），量化方案影响性能与精度。

 
  特性	        .safetensors	                      .gguf
  核心目标	  安全存储与快速加载张量	              高效加载大模型+量化支持
  安全性	         高（无代码执行风险）	                中等（依赖二进制解析安全性）
  元数据支持	  无	                                包含完整元数据
  量化支持	   无	                                多级量化方案
  适用场景	   通用模型共享、Hugging Face 生态	  大模型推理、低资源设备部署
  跨平台能力	  依赖框架支持	                       自包含，无需外部依赖
  主要生态	   Hugging Face	                      llama.cpp、Hugging Face

 
能不用量化方案就不用，它不如原来的效果好，但若是资源有限，没办法了...也可用


参考 
https://zhuanlan.zhihu.com/p/23807625841

离线部署·ollama

 
https://ollama.com/download/linux

安装包下载地址： 
https://ollama.com/download/ollama-linux-amd64.tgz

GitHub手动安装文档地址： 
https://github.com/ollama/ollama/blob/main/docs/linux.md

 
Ollama 支持离线安装，具体步骤如下：

### 1. 下载 Ollama 安装包
- 访问 Ollama 官方下载页面，根据你的操作系统和架构选择合适的安装包。例如：
  - **Linux (x86_64)**：下载 `ollama-linux-amd64.tgz`。
  - **Linux (ARM64)**：下载 `ollama-linux-arm64.tgz`。
  - **Windows 和 macOS**：可以直接从官网或国内中文站下载对应的安装文件。

### 2. 传输安装包到目标设备
将下载好的安装包通过 U 盘、局域网共享或其他方式传输到目标设备上。

### 3. 安装 Ollama
#### 对于 Linux 系统：
1. **解压安装包**：
    ```bash
    tar -xzf ollama-linux-amd64.tgz -C /usr
    ```
    或者将文件解压到其他目录，例如 `/opt/ollama`。
2. **创建服务文件**（可选，用于后台运行）：
    创建 `/etc/systemd/system/ollama.service` 文件，内容如下：
    ```ini
    [Unit]
    Description=Ollama Service
    After=network-online.target

    [Service]
    ExecStart=/usr/bin/ollama serve
    User=ollama
    Group=ollama
    Restart=always
    RestartSec=3
    Environment="PATH=$PATH"
    Environment="OLLAMA_MODELS=/path/to/models"
    Environment="OLLAMA_HOST=0.0.0.0:11434"

    [Install]
    WantedBy=default.target
    ```
    修改 `OLLAMA_MODELS` 为你的模型存储路径。
3. **启动服务**：
    ```bash
    systemctl daemon-reload
    systemctl enable ollama
    systemctl start ollama
    systemctl status ollama
    ```

#### 对于 Windows 和 macOS：
直接运行下载好的安装文件即可。

### 4. 配置环境变量（可选）
在 Linux 或 macOS 系统中，可以将 Ollama 的路径添加到环境变量中：
```bash
echo 'export PATH=$PATH:/path/to/ollama/bin' >> ~/.bashrc
source ~/.bashrc
```

### 5. 验证安装
运行以下命令检查 Ollama 是否安装成功：
```bash
ollama --version
```
如果显示版本号，则说明安装成功。

### 6. 离线安装模型（可选）
如果需要离线安装模型，可以按照以下步骤操作：
1. 在联网设备上运行 `ollama run model-name` 下载模型。
2. 找到模型文件（通常是 `.gguf` 文件）和对应的 `Modelfile` 文件。
3. 将这些文件传输到目标设备的模型目录下。
4. 使用以下命令导入模型：
    ```bash
    ollama create model-name -f Modelfile
    ```

通过以上步骤，你可以在离线环境中成功安装和运行 Ollama。

 
cd /opt/soft 
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
wget  https://ollama.com/download/ollama-linux-amd64.tgz --no-check-certificate
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

 

ollama serve

没有刻意安装GPU版，日志中显示也使用了GPU 
time=2025-03-25T16:06:21.707+08:00 level=INFO source=types.go:130 msg="inference compute" id=GPU-4e096a81-7ca7-6220-38f9-cfec732f72d4 library=cuda variant=v12 compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4070 Laptop GPU" total="8.0 GiB" available="6.9 GiB"

$ sudo netstat -tunlp |grep 11434
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      1985/ollama

 
$ ollama -v
ollama version is 0.6.1

 
https://modelscope.cn/models/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/files

Q4:4位量化位

下面的链接有8位量化位 
https://modelscope.cn/models/lmstudio-community/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/files
DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.ggufGGUF   1.89GB

cd /data/models/deepseek$
git lfs install
git clone https://www.modelscope.cn/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF.git

cd DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/
rm -rf .git

 
deepseek@uu:~$ cat Modelfile
from /data/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q2_K.gguf


ollama create DeepSeek-R1-Distill-Qwen-1.5B -f Modelfile

 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    6 seconds ago

 
https://modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/files

sudo apt install curl git
sudo curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
sudo apt install git-lfs

git lfs install
git clone https://www.modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF.git

 
ollama serve

ollama create DeepSeek-R1-14B-Q4 -f /wks/models/deepseek/mf_14b_q4

vim mf_14b_q8
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf

ollama create DeepSeek-R1-14B-Q8 -f /wks/models/deepseek/mf_14b_q8

vim mf_14b_f16
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-F16.gguf

ollama create DeepSeek-R1-14B-F16 -f /wks/models/deepseek/mf_14b_f16

ollama list

 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-14B-Q4:latest               61aae878c40b    15 GB     6 seconds ago
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    17 hours ago

本地部署·vllm

 
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1

reasoning 英/ˈriːznɪŋ , ˈriːzənɪŋ/ 美/ˈriːznɪŋ , ˈriːzənɪŋ/ 
n. 推理；论证；推想；理性的观点 
v. 推理；理解；思考；推断；推论 
adj. 能推理的；有关推理的

使用 vLLM 本地部署 DeepSeek
https://zhuanlan.zhihu.com/p/27650814946

deepseek官方文档 
https://api-docs.deepseek.com/zh-cn/api/deepseek-api

模型下载·git下载

 
前提:已安装好python环境 

https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/files

apt install curl git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt install git-lfs

root@uu:/wks/models# mkdir deepseek
root@uu:/wks/models# chown -R deepseek:deepseek deepseek/

su - deepseek
cd /wks/models/deepseek/
git lfs install
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git


deepseek@uu:/wks/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B$ rm -rf .git
deepseek@uu:/wks/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B$ cd ..
deepseek@uu:/wks/models/deepseek$ du -sh DeepSeek-R1-Distill-Qwen-1.5B/
3.4G    DeepSeek-R1-Distill-Qwen-1.5B/

 
git lfs install
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B.git
    
$ du -sh DeepSeek-R1-Distill-Qwen-14B/
28G     DeepSeek-R1-Distill-Qwen-14B/

 
pip install uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install sse_starlette -i https://pypi.tuna.tsinghua.edu.cn/simple

 
vLLM 是一款专为 高效推理 设计的大语言模型框架，其基于 PagedAttention 算法，性能显著优于传统方案。 

vllm也可以在CPU上进行安装
# 安装PyTorch CPU版本
pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu
pip install vllm

VLLM的CPU安装是可行的，但性能会显著受限。建议根据实际需求（推理/训练）和硬件条件选择部署环境。
轻量化替代：若仅需在CPU上运行，可考虑使用VLLM的轻量化版本（如蒸馏模型）或降低输入分辨率/模型复杂度。

 
CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2

CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU，
同时 --tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算，以加速推理过程。
其中./path/deepseek_model 指定模型文件路径，替换为本地自己的，--port 可自定义端口。

CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B --port 8000

注意事项

 
确保模型路径正确，文件无损坏。

推理服务启动后，可通过浏览器访问 http://localhost:8000 检查服务状态。

或观察终端输出，如果看到类似 INFO: Started server process 和 INFO: Uvicorn running on ... 的信息，则表示 vLLM 服务启动成功。

注意 GPU 显存: 启动 vLLM 服务会占用 GPU 显存。请确保您的 GPU 显存足够运行模型。如果显存不足，可能会导致启动失败或运行缓慢。您可以尝试减小 --max-model-len 参数或使用更小规模的模型。

如果启动 vLLM 服务时遇到 CUDA 相关错误，请检查您的 NVIDIA 驱动版本和 CUDA 环境是否正确安装。

DeepSeek-R1-Distill-Qwen-32B模型与deepseek-r1:32b模型区别

 
### 训练方式
- **DeepSeek-R1-Distill-Qwen-32B**：是通过知识蒸馏技术从 DeepSeek-R1 模型中蒸馏出来的。它以 Qwen2.5-32B 为基础，使用 DeepSeek-R1 生成的样本进行微调。
- **DeepSeek-R1:32b**：是 DeepSeek-R1 系列中的一个版本，经过了完整的多阶段训练过程以及强化学习调整。

### 参数量与架构
- **DeepSeek-R1-Distill-Qwen-32B**：参数量为 32B，基于 Qwen 架构。
- **DeepSeek-R1:32b**：参数量同样为 32B，但其架构是 DeepSeek-R1 的原始架构。

 
### 性能表现
- **推理能力**：DeepSeek-R1-Distill-Qwen-32B 在推理能力上表现出色，推理速度比原始模型提高了约 50 倍。在数学、代码与推理任务上，其性能超越了 OpenAI-o1-mini。
- **速度与资源消耗**：通常情况下，蒸馏版本的模型在推断过程中速度更快，计算成本更低。因此，DeepSeek-R1-Distill-Qwen-32B 在资源消耗方面可能更具优势。
- **精度与泛化能力**：DeepSeek-R1:32b 作为未经蒸馏的完整模型，在更多样化的测试集上可能展示出更强的表现力，尤其是在面对未见过的数据分布时，能够保持较高的预测质量。

 
### 适用场景
- **DeepSeek-R1-Distill-Qwen-32B**：更适合在资源有限的环境中使用，例如在普通消费级硬件上进行部署。它适用于需要高效推理和较低硬件成本的场景。
- **DeepSeek-R1:32b**：更适合需要高精度和强大推理能力的复杂任务，尤其是在专业领域和研究场景中。

 
pip uninstall vllm 

pip install torch==2.4.0 torchaudio==2.4.0 torchvision==0.19.0 transformers==4.44.0   -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install tokenizers==0.19.1 triton==3.0.0 vllm==0.5.5 vllm-flash-attn==2.6.1  -i https://pypi.tuna.tsinghua.edu.cn/simple

vllm==0.5.5出来的时间是2024年8月，也就是说其他依赖包差不多也要这个时间的

 
Successfully installed audioread-3.0.1 datasets-3.4.1 dill-0.3.8 
fsspec-2024.12.0 gguf-0.9.1 lazy_loader-0.4 librosa-0.11.0 
lm-format-enforcer-0.10.6 multiprocess-0.70.16 nvidia-cublas-cu12-12.1.3.1 
nvidia-cuda-cupti-cu12-12.1.105 nvidia-cuda-nvrtc-cu12-12.1.105 
nvidia-cuda-runtime-cu12-12.1.105 nvidia-cufft-cu12-11.0.2.54 
nvidia-curand-cu12-10.3.2.106 nvidia-cusolver-cu12-11.4.5.107 
nvidia-cusparse-cu12-12.1.0.106 nvidia-nccl-cu12-2.20.5 
nvidia-nvtx-cu12-12.1.105 outlines-0.0.46 pooch-1.8.2 
pyairports-2.1.1 pyarrow-19.0.1 soundfile-0.13.1 soxr-0.5.0.post1 
tokenizers-0.19.1 
torch-2.4.0 torchvision-0.19.0 transformers-4.44.0 
triton-3.0.0 vllm-0.5.5 vllm-flash-attn-2.6.1 
xformers-0.0.27.post2 xxhash-3.5.0

 
deepseek@uu:~$ CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B --port 8000  --max-model-len 4096


nohup CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B --port 8000  --max-model-len 4096 >/tmp/vllm_dp15.log 2>&1 &

4096使用了6G显存
deepseek@uu:~$ nvidia-smi
Tue Mar 25 13:51:03 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.41                 Driver Version: 561.03         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 ...    On  |   00000000:01:00.0  On |                  N/A |
| N/A   50C    P8              4W /   75W |    6786MiB /   8188MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

 

https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

两种启动方式

 
https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2


https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

手工下载的访问方法

 
from openai import OpenAI
client = OpenAI(
  base_url='http://127.0.0.1:8000/v1/',
  api_key='token', # 随意写
)

 
response = client.chat.completions.create(
    model='/wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B', # ModelScope Model-Id
    messages=[
        {
            'role': 'user',
            'content': '你好'
        }
    ],
    stream=True
)

done_reasoning = False
for chunk in response:
    delta = chunk.choices[0].delta 
    # print(delta)  #ChoiceDelta(content='你好', function_call=None, refusal=None, role=None, tool_calls=None)
    answer_chunk = delta.content
    if hasattr(delta, 'reasoning_content') and callable(getattr(delta, 'reasoning_content')):
        print("obj has a callable my_method")
        reasoning_chunk = delta.reasoning_content
        if reasoning_chunk != '':
            print(reasoning_chunk, end='',flush=True)
    elif answer_chunk != '':
        if not done_reasoning:
            print('\n\n === Final Answer ===\n')
            done_reasoning = True
        print(answer_chunk, end='',flush=True)

 
=== Final Answer ===

NoneAlright, the user just said "你好". That's Chinese for "hello".

I should respond in a friendly and welcoming manner.

I'll say "你好！有什么我可以帮你的吗？" which means "Hello! How can I assist you?"

That should be good to keep the conversation going.
think

你好！有什么我可以帮你的吗？

通过ModelScope下载的访问方法

 
from openai import OpenAI

client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1/',
    api_key='MODELSCOPE_SDK_TOKEN', # ModelScope Token
)

response = client.chat.completions.create(
    model='deepseek-ai/DeepSeek-R1-Distill-Qwen-14B', # ModelScope Model-Id
    messages=[
        {
            'role': 'user',
            'content': '你好'
        }
    ],
    stream=True
)
done_reasoning = False
for chunk in response:
    reasoning_chunk = chunk.choices[0].delta.reasoning_content
    answer_chunk = chunk.choices[0].delta.content
    if reasoning_chunk != '':
        print(reasoning_chunk, end='',flush=True)
    elif answer_chunk != '':
        if not done_reasoning:
            print('\n\n === Final Answer ===\n')
            done_reasoning = True
        print(answer_chunk, end='',flush=True)

python环境

 
启动ollama服务
root@uu:/# su - ollama
ollama@uu:~$ ollama serve &


adduser deepseek 
echo '%deepseek ALL=(ALL) NOPASSWD:ALL' > /etc/sudoers.d/deepseek

 
su - deepseek

sudo mkdir -p /wks/python/deepseek/
sudo chown -R deepseek:deepseek /wks/python/deepseek/

sudo tar -xvf Python-3.11.11.tar.xz
sudo chown -R deepseek:deepseek  Python-3.11.11
cd /wks/python/soft/Python-3.11.11
./configure --prefix=/wks/python/deepseek/ --enable-optimizations
    

checking for stdlib extension module _sqlite3... yes
checking for stdlib extension module _tkinter... yes
checking for stdlib extension module _uuid... yes
checking for stdlib extension module zlib... yes
checking for stdlib extension module _bz2... yes
checking for stdlib extension module _lzma... yes
checking for stdlib extension module _ssl... yes
checking for stdlib extension module _hashlib... yes
checking for stdlib extension module _testcapi... yes
checking for stdlib extension module _testclinic... yes
checking for stdlib extension module _testinternalcapi... yes
checking for stdlib extension module _testbuffer... yes
checking for stdlib extension module _testimportmultiple... yes
checking for stdlib extension module _testmultiphase... yes
checking for stdlib extension module _xxtestfuzz... yes
checking for stdlib extension module _ctypes_test... yes

 
make 
make install

 

cd /wks/python/deepseek/bin 
ln -s python3 python
ln -s pip3 pip

export PYTHONHOME=/wks/python/deepseek
export PATH=$PYTHONHOME/bin:$PATH

which python
which pip

 

pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install python-dotenv -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install openai -i https://pypi.tuna.tsinghua.edu.cn/simple

 
ollama用户
- 在线安装ollama 

deepseek 
- 离线安装的ollama 
- vllm 环境 ,torch2.4,transformer 4.44

vllm与ollama对比

vllm

1.5B

 
CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B --port 8000  --max-model-len 4096


CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model /wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B --port 8000  --max-model-len 8192

 
from openai import OpenAI

client = OpenAI(
    base_url='http://127.0.0.1:8000/v1/',
    api_key='token', # ModelScope Token
)

流式

 
response = client.chat.completions.create(
    model='/wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B', # ModelScope Model-Id
    messages=[{'role': 'user','content': '我要健康，但之间没有运行过，过开始适合做哪些运动',}],
    stream=True
)

done_reasoning = False
for chunk in response:
    delta = chunk.choices[0].delta 
    print(delta)  #ChoiceDelta(content='你好', function_call=None, refusal=None, role=None, tool_calls=None)
    answer_chunk = delta.content
    if hasattr(delta, 'reasoning_content') and callable(getattr(delta, 'reasoning_content')):
        print("obj has a callable my_method")
        reasoning_chunk = delta.reasoning_content
        if reasoning_chunk != '':
            print(reasoning_chunk, end='',flush=True)
    elif answer_chunk != '':
        if not done_reasoning:
            print('\n\n === Final Answer ===\n')
            done_reasoning = True
        print(answer_chunk, end='',flush=True)

 
对于这个问题--max-model-len 4096不够用，需要将之调整为--max-model-len 8192

响应时间 15-19秒之间

 
流式的输出是一个单词一个单词的返回，但每个返回是带有func_call，可以使用tools

确保ChoiceDelta(content='每次', function_call=None, refusal=None, role=None, tool_calls=None)
每次ChoiceDelta(content='运动', function_call=None, refusal=None, role=None, tool_calls=None)
运动ChoiceDelta(content='都', function_call=None, refusal=None, role=None, tool_calls=None)
都ChoiceDelta(content='有效', function_call=None, refusal=None, role=None, tool_calls=None)
有效ChoiceDelta(content='且', function_call=None, refusal=None, role=None, tool_calls=None)
且ChoiceDelta(content='有趣', function_call=None, refusal=None, role=None, tool_calls=None)
有趣ChoiceDelta(content='。', function_call=None, refusal=None, role=None, tool_calls=None)
。ChoiceDelta(content='', function_call=None, refusal=None, role=None, tool_calls=None)

非流式

 
response = client.chat.completions.create(
    model='/wks/bigmodels/DeepSeek-R1-Distill-Qwen-1.5B', # ModelScope Model-Id
    messages=[{'role': 'user','content': '我要健康，但之间没有运行过，过开始适合做哪些运动',}],
    stream=False
)

print(response.choices[0].message.content)

 
嗯，我想要健康但没有进行过运动，但又想做一些适合的运动。这有点让我困惑，因为通常健康的人会经常运动，但也许我暂时不打算这样做。不过，为了长期的健康，我觉得还是需要进行一些运动，以保持活跃的体魄和增强体质。

那我应该做哪些适合的运动呢？首先，我想到的可能是跑步，因为它是全身性的运动，能帮助你提高心肺功能和肌肉力量。不过，有时候可能需要先做一些热身运动，比如慢跑、骑自行车或者进行简单的拉伸，以确保你有足够的能量来完成跑步。

接下来，瑜伽可能也是一个不错的选择。瑜伽可以增强动作的灵活性和力量，同时有助于放松身心，恢复肌肉和关节。我可能会选择一些简单的瑜伽动作，比如平板支撑、深蹲或者仰卧起坐，这些动作对身体来说都很适合，而且练习起来也不需要太多的时间。

另外，游泳也是一个不错的选择。游泳不仅能帮助你放松身心，还能提升心肺功能和耐力。不过，游泳可能需要一定的体力，所以一开始可能需要先进行一些热身运动，比如游泳或慢跑，确保你有足够的体力来完成游泳动作。

力量训练也是一个好的选择，特别是如果有时间的话。我可以选一些简单但有效的力量训练，比如深蹲、素数引体向上、俯卧撑等。这些力量训练可以帮助我增强肌肉力量，同时也有助于饮食的调整，比如多摄入蛋白质和健康脂肪，减少脂肪的摄入量。

力量训练需要一些时间，所以我可能会先进行热身运动，比如慢跑或散步，确保我能保持足够的体力来完成这些力量训练。此外，力量训练后还可以进行一些休息和恢复，这样有助于身体恢复，避免受伤。

最后，力量训练也可以帮助我保持良好的状态，提升自信心，这些都对长期的健康有帮助。如果我开始进行力量训练，我可能会先享受一段时间的放松和恢复，然后再逐渐增加强度，确保自己能够不断进步。

不过，我需要注意的是，任何运动都需要适量的饮食和充足的睡眠，才能保证健康。我可能会先调整饮食，多吃一些蛋白质ated的食材，比如鱼、肉类和豆类，同时避免过多的脂肪和碳水化合物。充足的睡眠也很重要，所以我会确保每天都有足够的休息时间，避免熬夜。

综上所述，我应该先进行热身运动，然后是瑜伽、游泳或力量训练，最后是放松和休息。这样不仅有助于保持健康，还能帮助我逐步恢复并提升自己的身体和心理状态。
think

为了保持健康且不进行运动，建议先进行热身运动，然后是瑜伽、游泳或力量训练。
热身运动可以帮助你调整 your body 和 mind，准备好进入运动状态。
瑜伽和力量训练则可以帮助你增强肌肉力量和整体身体素质。
游泳则是一个适合身体条件较好的选择。
最后，放松和休息是恢复和增强身体的重要步骤。
通过这些方法，你可以逐步恢复健康，同时享受放松和提升自我带来的成就感

 
10.8秒

参考

七三笔记路线：学习，记录，分享