七三笔记

大模型权重文件格式

 
  简介
  safetensors 是由 Hugging Face 提出的一种安全、高效的机器学习模型权重存储格式。
  它旨在替代传统的 PyTorch .pt 或 .pth 文件，
  解决后者因使用 pickle 序列化可能存在的安全漏洞（如恶意代码执行）问题。
  
  核心特点
  
  1. 安全性
  文件仅存储张量数据，不包含可执行代码，避免了反序列化时的恶意代码注入风险。
  通过限制文件头大小（如 100MB）和内存访问范围，防止极端情况下的内存溢出攻击。
  
  2. 高效加载
  
  零拷贝技术：支持内存直接映射（mmap），跳过不必要的 CPU 数据复制，在 Linux 系统上加载速度比 PyTorch 快 2 倍。
  惰性加载：允许仅加载部分张量，适合分布式或多 GPU 场景。
  
  3. 跨框架兼容性
  
  支持 PyTorch、TensorFlow 等框架，但主要集成于 Hugging Face 生态，常用于快速部署和安全敏感的模型共享。
  
  4. 局限性
  
  未包含模型的元数据（如架构、超参数），依赖外部配置文件。
  在大模型的高效序列化、量化支持等方面较弱。

 
  简介
  .gguf（GPT-Generated Unified Format）由 Georgi Gerganov（llama.cpp 创始人）设计，
  专为大规模语言模型（LLM）优化，是 GGML 格式的继任者。
  它通过二进制编码和内存映射技术，显著提升模型加载效率，并支持量化以降低资源消耗。
  
  核心特点
  高效性与跨平台支持
  内存映射（mmap）：直接从磁盘加载模型到内存，减少内存占用和启动时间，尤其适合 CPU 推理。
  单文件部署：包含所有元数据（如模型架构、超参数），无需额外依赖文件，简化跨平台共享。
  
  量化支持
  支持从 2 位到 8 位的多种量化方案（如 Q4_K、Q5_K），平衡模型精度与资源消耗，显著减小文件体积（如 70B 模型可从 140GB 压缩至 20GB）。
  量化参数可灵活配置，适用于低资源设备（如手机、边缘计算）。
  
  可扩展性与兼容性
  元数据采用键值对结构，支持向后兼容的格式扩展。
  可通过官方工具将 PyTorch、Safetensors 等格式转换为 GGUF。
  
  应用场景
  主要用于大语言模型（如 LLaMA、Gemma、Qwen）的推理部署，在 Hugging Face 上有超过 6000 个 GGUF 模型。
  文件名通常以 Q+位数+变体 命名（如 q4_k_m.gguf），量化方案影响性能与精度。

 
    特性	        .safetensors	                      .gguf
    核心目标	  安全存储与快速加载张量	              高效加载大模型+量化支持
    安全性	         高（无代码执行风险）	                中等（依赖二进制解析安全性）
    元数据支持	  无	                                包含完整元数据
    量化支持	   无	                                多级量化方案
    适用场景	   通用模型共享、Hugging Face 生态	  大模型推理、低资源设备部署
    跨平台能力	  依赖框架支持	                       自包含，无需外部依赖
    主要生态	   Hugging Face	                      llama.cpp、Hugging Face

 
  能不用量化方案就不用，它不如原来的效果好，但若是资源有限，没办法了...也可用
  
  
  参考 
  https://zhuanlan.zhihu.com/p/23807625841

在线部署·ollama

在线安装

 
curl -fsSL https://ollama.com/install.sh | sh

环境变量设置


mkdir -p /wks/bigmodels/ollama
chown -R llm:xt /wks/bigmodels/ollama

export OLLAMA_MODELS=/wks/bigmodels/ollama

 
服务启动
ollama serve

bml@kl:~$ sudo netstat -tunlp|grep oll
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      21280/ollama

拉取大模型
ollama pull llama3
ollama run llama3
ollama rm llama3

ollama list

 
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:8b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b

ollama run deepseek-r1:70b

 
from openai import OpenAI

#ollama serve
#ollama list
client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='key',#必需但可以随便填写
)

chat_completion = client.chat.completions.create(
    messages=[{'role': 'user','content': '我要健康，但之间没有运行过，过开始适合做哪些运动',}],
    model='deepseek-r1:1.5b',
)

print(chat_completion.choices[0].message.content)

 
think
嗯，我想要找到一种既能保持健康又不需要在运动机器上走动的方法。之前总觉得如果经常健身的话挺不错的选择，主要是因为它能帮助我们提升身体素质和整体mindset。但是现在我觉得，可能有时候身体太忙了，或者说有些东西无法坚持下去，所以想试试其他的活动形式。

首先，我想到了瑜伽这个方法。听说瑜伽不仅能放松身心，还能增加对力量的感觉。但是我之前总觉得如果开始太多人说它不适合，特别是在没有特别运动能力的情况下。不过现在觉得，只要花时间在上面，应该是可以达到一定的效果。

然后是瑜伽流道。这个听起来比单纯的瑜伽要简单一些，适合需要练习更多动作的人。可能也容易坚持下去？但我不确定，不知道有没有别的更好的办法。

力量训练是另一种选择，比如举重或者带 weights。我觉得如果我能够找到好材料的话，可能就能完成，而且时间也不用太长，只要安排在下午或者晚上，感觉比较方便。不过要找合适的器械和方法可能需要花费一些时间。

力量骑车也是一个不错的选择，因为我可以跟自行车在一起跑。这样不仅锻炼身体，又能与朋友相处。但不知道是否适合所有人，特别是在一些人流量很大的时候。

跳绳是另外一个有趣的活动形式，因为它不用太多工具也能保持运动状态。不过，我想知道能不能找到有效的强度，否则可能会累伤。

力量球是一个容易理解的方式，可能能帮助我更好地放松和调节身体状态。不过我不确定是否有训练好的姿势，所以可能需要慢慢来。

力量划船和瑜伽划波也是比较有挑战性的活动，可能适合喜欢运动者。但会不会太紧张或者不适合我现在的健身量呢？

我可以尝试一些力量步行，如果能在下午或者晚上走几步，锻炼腰和 legs。这样可能可以同时进行不同的动作。

力量游泳，可能涉及到更长的距离，但如果我的时间允许的话，或许也能安排在傍晚或夜晚，让自己的身体有更多的运动机会。

力量跳舞，则不需要太多设备就能完成，感觉很轻松，特别是当周围的人不多的时候。这个方法可能会增加一些放松的过程，有助于全身的协调。

力量骑单车，如果我有自行车，可以在白天或晚上骑车前进和骑行的力量训练，这样也能保持活跃的运动模式。

力量划伞也是一个有趣的活动形式，可能需要找到一个适合他的伞方式来进行锻炼。不过我觉得在下雨天或者光线不好时可能会不太合适。

我觉得这些运动形式都需要时间和耐心，同时需要选择正确的器械和方法，所以可能需要慢慢来，逐步尝试，看看哪种最适合我现在的状态就好了。

也许我可以先从小规模的运动做起，比如简单的力量训练、瑜伽或者轻度步行，然后在坚持下来之后再来挑战更高强度的内容。如果一段时间后，感觉满意再往更高的级别发展比较好。

不过，在进行这些运动之前，我觉得需要确认一下自己对健身的兴趣和条件，确保自己能找到适合自己的锻炼方式。同时，避免过量的运动会影响健康，所以得权衡一下个人的需求和个人的生活习惯。

总之，我现在在寻找一种既能保持健康，又不经常用工具跑动的方法。经过一系列的想法和搜索，我认为比较实用的是力量训练、力量划船和力量跳舞这些活动形式。它们不需要太多工具也能有效地锻炼身体，同时还能让生活的其他部分保持轻松自在。
think

为了维持健康并减少可能的跑动次数，以下是一些适合你的方式：

1. **力量训练**：选择合适的锻炼器械（如杠铃、哑铃或带绳子使用的带 weights），在下午或晚上进行轻松的快节奏运动，持续30-60分钟。这能提升力量和协调感，同时不需要太多工具。

2. **力量划船与瑜伽划波**：如果喜欢挑战性的动作，请寻找适合你的划船姿势（如坐船、跨船等）。这些活动提供额外的锻炼，既能拉长距离也能增进肌肉放松，适合喜欢运动者的挑战。

3. **力量骑单车**：在天气温暖且没有太多人群时，可以选择骑行或滑板的方式。骑一辆自行车至早上或晚上完成少量步行，增加腰和腿的锻炼机会。

4. **力量跳舞与瑜伽**：在这个时候坐下，并坐在周围的朋友旁边做轻柔的跳跃练习。跳舞既放松身心又能让其他同伴感到轻松，特别适合在空旷环境中进行。

5. **力量球与力量划伞**：这些活动不需要设备也能拉近身体和释放肌肉紧张感。选择有适合自己姿势的伞方式进行力量球练习，同时在下雨天或光线较差时可以尝试划伞，注意安全。

6. **简单的力量训练或瑜伽流道**：无论时间多短，如果条件允许都可以安排一次力量流道或力量训练。这能帮助你保持适当的运动强度并增强动作。

7. **轻度步行与骑行**：在黄昏或黎明时分步行或骑行少量路段，这有助于放松全身肌肉，同时提升心肺功能。

这些运动形式既能有效锻炼身体又不涉及大量工具和机械，适合维持健康并且减少跑动次数。重要的是找到一个适合自己的方式来融入日常活动，以获得持续的运动体验。

 
from tpf.llm import chat_ollama
res = chat_ollama("上班很累了，办公看了一天的电脑，因为手机很好玩，下班后如何克制自己不玩手机？",model='deepseek-r1:1.5b')
print(res)

 
下班后克制自己不玩手机的策略如下：

1. **设定小目标**：每天设定完成几项任务的目标，比如完成几篇报告或处理几份文件，这样能激励自己坚持。

2. **利用提醒功能**：如果手机有提醒功能，定期设置关机提醒和充电提醒，帮助自己保持手机不被使用。

3. **选择安静环境**：在休息时找些安静的地方，如房间里的书桌或小本子，减少外界干扰。

4. **使用番茄工作法**：每天固定时间专注工作，比如25分钟专注，然后休息5分钟，这样高效又不容易分心。

5. **利用语音助手**：与家人或朋友聊天，缓解压力，同时也能保持手机的使用状态。

6. **选择替代工具**：如果手机没电，可以听音乐、看视频或用简单的任务完成工具（如番茄工作法）来代替。

通过这些方法，可以在不玩手机的情况下提升工作效率，帮助自己更好地放松和专注。

 
mkdir deepseek
export OLLAMA_MODELS=/root/deepseek

curl -fsSL https://ollama.com/install.sh | sh

nohup ollama serve &

 
ollama pull deepseek-r1:32b

 
ssh -L 11435:localhost:11434 root@px-asia-3.matpool.com -p 28070 -N -q

 
官网：https://ollama.com

Github：https://github.com/ollama/ollama

 
https://mp.weixin.qq.com/s/3xW0NJVnMsc22R189w7YWQ

https://ollama.com/library/deepseek-r1


DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

ollama run deepseek-r1:14b

ollama run deepseek-r1:32b

ollama run deepseek-r1:70b

 
milVus向量数据库的安装步骤
https://blog.csdn.net/wangqiaowq/article/details/136163338

https://zhuanlan.zhihu.com/p/677763767


最近全网大火的报告，由清华新闻学院、人工智能学院双聘教授沈阳教授团队余梦珑博士后倾力打造
《DeepSeek：从入门到精通》1.0版发布！助你快速上手、精通运用，一起探索AI新视界。
链接: http://t.cn/A63evoRO 提取码: 9e72

离线部署·ollama

 
cd /opt/soft 

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
或
wget  https://ollama.com/download/ollama-linux-amd64.tgz --no-check-certificate

tar -C /usr -xzf ollama-linux-amd64.tgz
或者解压到其他比如，
mkdir -p /wks/python/ollama_offline/
tar -C /wks/python/ollama_offline/ -xzf ollama-linux-amd64.tgz

 
ollama serve

没有刻意安装GPU版，日志中显示也使用了GPU 
time=2025-03-25T16:06:21.707+08:00 level=INFO source=types.go:130 msg="inference compute" id=GPU-4e096a81-7ca7-6220-38f9-cfec732f72d4 library=cuda variant=v12 compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4070 Laptop GPU" total="8.0 GiB" available="6.9 GiB"

$ sudo netstat -tunlp |grep 11434
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      1985/ollama

 
$ ollama -v
ollama version is 0.6.1

 
https://modelscope.cn/models/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/files

Q4:4位量化位

下面的链接有8位量化位 
https://modelscope.cn/models/lmstudio-community/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/files
DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.ggufGGUF   1.89GB

cd /data/models/deepseek$
git lfs install
git clone https://www.modelscope.cn/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF.git

cd DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/
rm -rf .git

 
deepseek@uu:~$ cat Modelfile
from /data/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q2_K.gguf


ollama create DeepSeek-R1-Distill-Qwen-1.5B -f Modelfile

 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    6 seconds ago

 
https://modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/files

sudo apt install curl git
sudo curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
sudo apt install git-lfs

git lfs install
git clone https://www.modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF.git

 
ollama serve

ollama create DeepSeek-R1-14B-Q4 -f /wks/models/deepseek/mf_14b_q4

vim mf_14b_q8
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf

ollama create DeepSeek-R1-14B-Q8 -f /wks/models/deepseek/mf_14b_q8

vim mf_14b_f16
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-F16.gguf

ollama create DeepSeek-R1-14B-F16 -f /wks/models/deepseek/mf_14b_f16

ollama list

 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-14B-Q4:latest               61aae878c40b    15 GB     6 seconds ago
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    17 hours ago

 
https://ollama.com/download/linux

安装包下载地址： 
https://ollama.com/download/ollama-linux-amd64.tgz

GitHub手动安装文档地址： 
https://github.com/ollama/ollama/blob/main/docs/linux.md

参考

七三笔记路线：学习，记录，分享