大模型权重文件格式

 
  简介
  safetensors 是由 Hugging Face 提出的一种安全、高效的机器学习模型权重存储格式。
  它旨在替代传统的 PyTorch .pt 或 .pth 文件,
  解决后者因使用 pickle 序列化可能存在的安全漏洞(如恶意代码执行)问题。
  
  核心特点
  
  1. 安全性
  文件仅存储张量数据,不包含可执行代码,避免了反序列化时的恶意代码注入风险。
  通过限制文件头大小(如 100MB)和内存访问范围,防止极端情况下的内存溢出攻击。
  
  2. 高效加载
  
  零拷贝技术:支持内存直接映射(mmap),跳过不必要的 CPU 数据复制,在 Linux 系统上加载速度比 PyTorch 快 2 倍。
  惰性加载:允许仅加载部分张量,适合分布式或多 GPU 场景。
  
  3. 跨框架兼容性
  
  支持 PyTorch、TensorFlow 等框架,但主要集成于 Hugging Face 生态,常用于快速部署和安全敏感的模型共享。
  
  4. 局限性
  
  未包含模型的元数据(如架构、超参数),依赖外部配置文件。
  在大模型的高效序列化、量化支持等方面较弱。
  
      
  

 
  
      
  

 
  
      
  

 
  简介
  .gguf(GPT-Generated Unified Format)由 Georgi Gerganov(llama.cpp 创始人)设计,
  专为大规模语言模型(LLM)优化,是 GGML 格式的继任者。
  它通过二进制编码和内存映射技术,显著提升模型加载效率,并支持量化以降低资源消耗。
  
  核心特点
  高效性与跨平台支持
  内存映射(mmap):直接从磁盘加载模型到内存,减少内存占用和启动时间,尤其适合 CPU 推理。
  单文件部署:包含所有元数据(如模型架构、超参数),无需额外依赖文件,简化跨平台共享。
  
  量化支持
  支持从 2 位到 8 位的多种量化方案(如 Q4_K、Q5_K),平衡模型精度与资源消耗,显著减小文件体积(如 70B 模型可从 140GB 压缩至 20GB)。
  量化参数可灵活配置,适用于低资源设备(如手机、边缘计算)。
  
  可扩展性与兼容性
  元数据采用键值对结构,支持向后兼容的格式扩展。
  可通过官方工具将 PyTorch、Safetensors 等格式转换为 GGUF。
  
  应用场景
  主要用于大语言模型(如 LLaMA、Gemma、Qwen)的推理部署,在 Hugging Face 上有超过 6000 个 GGUF 模型。
  文件名通常以 Q+位数+变体 命名(如 q4_k_m.gguf),量化方案影响性能与精度。
  
    
  

 
    特性	        .safetensors	                      .gguf
    核心目标	  安全存储与快速加载张量	              高效加载大模型+量化支持
    安全性	         高(无代码执行风险)	                中等(依赖二进制解析安全性)
    元数据支持	  无	                                包含完整元数据
    量化支持	   无	                                多级量化方案
    适用场景	   通用模型共享、Hugging Face 生态	  大模型推理、低资源设备部署
    跨平台能力	  依赖框架支持	                       自包含,无需外部依赖
    主要生态	   Hugging Face	                      llama.cpp、Hugging Face
  
  

 
  能不用量化方案就不用,它不如原来的效果好,但若是资源有限,没办法了...也可用
  
  
  参考 
  https://zhuanlan.zhihu.com/p/23807625841
  
  

 
  
    
  

 
  
  
  
在线部署·ollama

在线安装

 
curl -fsSL https://ollama.com/install.sh | sh
    

环境变量设置


mkdir -p /wks/bigmodels/ollama
chown -R llm:xt /wks/bigmodels/ollama

export OLLAMA_MODELS=/wks/bigmodels/ollama
    

 
服务启动
ollama serve

bml@kl:~$ sudo netstat -tunlp|grep oll
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      21280/ollama

拉取大模型
ollama pull llama3
ollama run llama3
ollama rm llama3

ollama list

 
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:8b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b

ollama run deepseek-r1:70b
    

 
from openai import OpenAI

#ollama serve
#ollama list
client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='key',#必需但可以随便填写
)

chat_completion = client.chat.completions.create(
    messages=[{'role': 'user','content': '我要健康,但之间没有运行过,过开始适合做哪些运动',}],
    model='deepseek-r1:1.5b',
)

print(chat_completion.choices[0].message.content)

 
think
嗯,我想要找到一种既能保持健康又不需要在运动机器上走动的方法。之前总觉得如果经常健身的话挺不错的选择,主要是因为它能帮助我们提升身体素质和整体mindset。但是现在我觉得,可能有时候身体太忙了,或者说有些东西无法坚持下去,所以想试试其他的活动形式。

首先,我想到了瑜伽这个方法。听说瑜伽不仅能放松身心,还能增加对力量的感觉。但是我之前总觉得如果开始太多人说它不适合,特别是在没有特别运动能力的情况下。不过现在觉得,只要花时间在上面,应该是可以达到一定的效果。

然后是瑜伽流道。这个听起来比单纯的瑜伽要简单一些,适合需要练习更多动作的人。可能也容易坚持下去?但我不确定,不知道有没有别的更好的办法。

力量训练是另一种选择,比如举重或者带 weights。我觉得如果我能够找到好材料的话,可能就能完成,而且时间也不用太长,只要安排在下午或者晚上,感觉比较方便。不过要找合适的器械和方法可能需要花费一些时间。

力量骑车也是一个不错的选择,因为我可以跟自行车在一起跑。这样不仅锻炼身体,又能与朋友相处。但不知道是否适合所有人,特别是在一些人流量很大的时候。

跳绳是另外一个有趣的活动形式,因为它不用太多工具也能保持运动状态。不过,我想知道能不能找到有效的强度,否则可能会累伤。

力量球是一个容易理解的方式,可能能帮助我更好地放松和调节身体状态。不过我不确定是否有训练好的姿势,所以可能需要慢慢来。

力量划船和瑜伽划波也是比较有挑战性的活动,可能适合喜欢运动者。但会不会太紧张或者不适合我现在的健身量呢?

我可以尝试一些力量步行,如果能在下午或者晚上走几步,锻炼腰和 legs。这样可能可以同时进行不同的动作。

力量游泳,可能涉及到更长的距离,但如果我的时间允许的话,或许也能安排在傍晚或夜晚,让自己的身体有更多的运动机会。

力量跳舞,则不需要太多设备就能完成,感觉很轻松,特别是当周围的人不多的时候。这个方法可能会增加一些放松的过程,有助于全身的协调。

力量骑单车,如果我有自行车,可以在白天或晚上骑车前进和骑行的力量训练,这样也能保持活跃的运动模式。

力量划伞也是一个有趣的活动形式,可能需要找到一个适合他的伞方式来进行锻炼。不过我觉得在下雨天或者光线不好时可能会不太合适。

我觉得这些运动形式都需要时间和耐心,同时需要选择正确的器械和方法,所以可能需要慢慢来,逐步尝试,看看哪种最适合我现在的状态就好了。

也许我可以先从小规模的运动做起,比如简单的力量训练、瑜伽或者轻度步行,然后在坚持下来之后再来挑战更高强度的内容。如果一段时间后,感觉满意再往更高的级别发展比较好。

不过,在进行这些运动之前,我觉得需要确认一下自己对健身的兴趣和条件,确保自己能找到适合自己的锻炼方式。同时,避免过量的运动会影响健康,所以得权衡一下个人的需求和个人的生活习惯。

总之,我现在在寻找一种既能保持健康,又不经常用工具跑动的方法。经过一系列的想法和搜索,我认为比较实用的是力量训练、力量划船和力量跳舞这些活动形式。它们不需要太多工具也能有效地锻炼身体,同时还能让生活的其他部分保持轻松自在。
think

为了维持健康并减少可能的跑动次数,以下是一些适合你的方式:

1. **力量训练**:选择合适的锻炼器械(如杠铃、哑铃或带绳子使用的带 weights),在下午或晚上进行轻松的快节奏运动,持续30-60分钟。这能提升力量和协调感,同时不需要太多工具。

2. **力量划船与瑜伽划波**:如果喜欢挑战性的动作,请寻找适合你的划船姿势(如坐船、跨船等)。这些活动提供额外的锻炼,既能拉长距离也能增进肌肉放松,适合喜欢运动者的挑战。

3. **力量骑单车**:在天气温暖且没有太多人群时,可以选择骑行或滑板的方式。骑一辆自行车至早上或晚上完成少量步行,增加腰和腿的锻炼机会。

4. **力量跳舞与瑜伽**:在这个时候坐下,并坐在周围的朋友旁边做轻柔的跳跃练习。跳舞既放松身心又能让其他同伴感到轻松,特别适合在空旷环境中进行。

5. **力量球与力量划伞**:这些活动不需要设备也能拉近身体和释放肌肉紧张感。选择有适合自己姿势的伞方式进行力量球练习,同时在下雨天或光线较差时可以尝试划伞,注意安全。

6. **简单的力量训练或瑜伽流道**:无论时间多短,如果条件允许都可以安排一次力量流道或力量训练。这能帮助你保持适当的运动强度并增强动作。

7. **轻度步行与骑行**:在黄昏或黎明时分步行或骑行少量路段,这有助于放松全身肌肉,同时提升心肺功能。

这些运动形式既能有效锻炼身体又不涉及大量工具和机械,适合维持健康并且减少跑动次数。重要的是找到一个适合自己的方式来融入日常活动,以获得持续的运动体验。

  

 

  

 

  

 
from tpf.llm import chat_ollama
res = chat_ollama("上班很累了,办公看了一天的电脑,因为手机很好玩,下班后如何克制自己不玩手机?",model='deepseek-r1:1.5b')
print(res)
  

 
下班后克制自己不玩手机的策略如下:

1. **设定小目标**:每天设定完成几项任务的目标,比如完成几篇报告或处理几份文件,这样能激励自己坚持。

2. **利用提醒功能**:如果手机有提醒功能,定期设置关机提醒和充电提醒,帮助自己保持手机不被使用。

3. **选择安静环境**:在休息时找些安静的地方,如房间里的书桌或小本子,减少外界干扰。

4. **使用番茄工作法**:每天固定时间专注工作,比如25分钟专注,然后休息5分钟,这样高效又不容易分心。

5. **利用语音助手**:与家人或朋友聊天,缓解压力,同时也能保持手机的使用状态。

6. **选择替代工具**:如果手机没电,可以听音乐、看视频或用简单的任务完成工具(如番茄工作法)来代替。

通过这些方法,可以在不玩手机的情况下提升工作效率,帮助自己更好地放松和专注。

  

 

  

 
mkdir deepseek
export OLLAMA_MODELS=/root/deepseek

curl -fsSL https://ollama.com/install.sh | sh

nohup ollama serve &

 
ollama pull deepseek-r1:32b

 
ssh -L 11435:localhost:11434 root@px-asia-3.matpool.com -p 28070 -N -q 

 


 
官网:https://ollama.com

Github:https://github.com/ollama/ollama
    

 
https://mp.weixin.qq.com/s/3xW0NJVnMsc22R189w7YWQ

https://ollama.com/library/deepseek-r1


DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

ollama run deepseek-r1:14b

ollama run deepseek-r1:32b

ollama run deepseek-r1:70b



 
milVus向量数据库的安装步骤
https://blog.csdn.net/wangqiaowq/article/details/136163338

https://zhuanlan.zhihu.com/p/677763767


最近全网大火的报告,由清华新闻学院、人工智能学院双聘教授沈阳教授团队余梦珑博士后倾力打造
《DeepSeek:从入门到精通》1.0版发布!助你快速上手、精通运用,一起探索AI新视界。
链接: http://t.cn/A63evoRO 提取码: 9e72 ​​​

    

 

    
离线部署·ollama

 
cd /opt/soft 

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
或
wget  https://ollama.com/download/ollama-linux-amd64.tgz --no-check-certificate

tar -C /usr -xzf ollama-linux-amd64.tgz
或者解压到其他比如,
mkdir -p /wks/python/ollama_offline/
tar -C /wks/python/ollama_offline/ -xzf ollama-linux-amd64.tgz


 
ollama serve

没有刻意安装GPU版,日志中显示也使用了GPU 
time=2025-03-25T16:06:21.707+08:00 level=INFO source=types.go:130 msg="inference compute" id=GPU-4e096a81-7ca7-6220-38f9-cfec732f72d4 library=cuda variant=v12 compute=8.9 driver=12.6 name="NVIDIA GeForce RTX 4070 Laptop GPU" total="8.0 GiB" available="6.9 GiB"

$ sudo netstat -tunlp |grep 11434
tcp        0      0 127.0.0.1:11434         0.0.0.0:*               LISTEN      1985/ollama

 
$ ollama -v
ollama version is 0.6.1


 


 
https://modelscope.cn/models/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/files

Q4:4位量化位

下面的链接有8位量化位 
https://modelscope.cn/models/lmstudio-community/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/files
DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.ggufGGUF   1.89GB

cd /data/models/deepseek$
git lfs install
git clone https://www.modelscope.cn/syutung2/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF.git

cd DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/
rm -rf .git

 
deepseek@uu:~$ cat Modelfile
from /data/models/deepseek/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q4_2_K-GGUF/DeepSeek-R1-Distill-Qwen-1.5B-1949-Q2_K.gguf


ollama create DeepSeek-R1-Distill-Qwen-1.5B -f Modelfile


 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    6 seconds ago

 
https://modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/files

sudo apt install curl git
sudo curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
sudo apt install git-lfs

git lfs install
git clone https://www.modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF.git

 
ollama serve

ollama create DeepSeek-R1-14B-Q4 -f /wks/models/deepseek/mf_14b_q4

vim mf_14b_q8
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf

ollama create DeepSeek-R1-14B-Q8 -f /wks/models/deepseek/mf_14b_q8

vim mf_14b_f16
from /wks/models/deepseek/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-F16.gguf

ollama create DeepSeek-R1-14B-F16 -f /wks/models/deepseek/mf_14b_f16

ollama list 


 
$ ollama list
NAME                                    ID              SIZE      MODIFIED
DeepSeek-R1-14B-Q4:latest               61aae878c40b    15 GB     6 seconds ago
DeepSeek-R1-Distill-Qwen-1.5B:latest    026b2a354fee    752 MB    17 hours ago

 
https://ollama.com/download/linux

安装包下载地址: 
https://ollama.com/download/ollama-linux-amd64.tgz

GitHub手动安装文档地址: 
https://github.com/ollama/ollama/blob/main/docs/linux.md
    

 

    

 

    

 

    

 
  
  
  
参考