当前位置: 首页 > news >正文

如何查网站的服务器百度云盘网页版

如何查网站的服务器,百度云盘网页版,建设科普网站,涿州做网站公司GGUF格式介绍 GGUF(GPT-Generated Unified Format)是推理框架llama.cpp 中使用的一种专为大语言模型设计的二进制文件格式,旨在实现模型的快速加载和保存,同时易于读取。GGUF格式的特点: 单文件部署:模型…

GGUF格式介绍

GGUFGPT-Generated Unified Format)是推理框架llama.cpp 中使用的一种专为大语言模型设计的二进制文件格式,旨在实现模型的快速加载和保存,同时易于读取。GGUF格式的特点:

  • 单文件部署:模型可以轻松分发和加载,不需要任何外部文件来提供额外信息。
  • 可扩展性:可以在不破坏与现有模型的兼容性的情况下,向基于GGML的执行器添加新功能或向GGUF模型添加新信息。
  • mmap兼容性:可以使用mmap加载模型,以实现快速加载和保存。
  • 易于使用:可以使用少量代码轻松加载和保存模型,无论使用何种语言,无需外部库。
  • 完整信息:加载模型所需的所有信息都包含在模型文件中,用户无需提供任何额外信息。

GGUF文件的结构如下图所示:

gguf

主要包括以下几个部分:

  • 文件头(Header):标识文件类型(GGUF)、版本号、张量数量。
  • 元数据段(Metadata):JSON-like键值对存储模型信息。
  • 张量数据段(Tensors):按量化类型存储模型权重。

它们使用general.alignment元数据字段中指定的全局对齐,如果需要,文件将用0x00字节填充到general.alignment的下一个倍数。除非另有说明,字段(包括数组)将按顺序连续写入,不进行对齐。模型默认为小端序,当然它们也可以是大端序以供大端序计算机使用,在这种情况下,所有值(包括元数据值和张量)也将是大端序。

GGUF命名约定

GGUF遵循<BaseName><SizeLabel><FineTune><Version><Encoding><Type><Shard>.gguf的命名约定,其中每个组件由-分隔(如果存在),这种命名方式的最终目的是为了让人们能够快速了解模型的关键信息。

每个组件的含义如下:

  1. BaseName:模型基础类型或架构的描述性名称。

    • 可以从gguf元数据general.basename派生,将空格替换为连字符。
  2. SizeLabel:参数权重类别(在排行榜中有用),表示为<专家数量>x<数量><量级前缀>

    • 如果可用,可以从gguf元数据general.size_label派生,如果缺失则进行计算。
    • 支持带有单个字母量级前缀的十进制点的四舍五入,以帮助显示浮点指数,如下所示:
      • Q:千万亿参数。
      • T:万亿参数。
      • B:十亿参数。
      • M:百万参数。
      • K:千参数。
    • 可以根据需要附加额外的-<属性><数量><量级前缀>以指示其他感兴趣的属性。
  3. FineTune:模型微调目标的描述性名称(例如ChatInstruct等)。

    • 可以从gguf元数据general.finetune派生,将空格替换为连字符。
  4. Version:表示模型版本号,格式为v<主版本>.<次版本>

    • 如果模型缺少版本号,则假设为v1.0(首次公开发布)。
    • 可以从gguf元数据general.version派生。
  5. Encoding:指示应用于模型的权重编码方案。内容、类型混合和排列由用户代码决定,可以根据项目需求而有所不同。

  6. Type:指示gguf文件的类型及其预期用途。

    • 如果缺失,则文件默认为典型的gguf张量模型文件。
    • LoRA:GGUF文件是LoRA适配器。
    • vocab:仅包含词汇数据和元数据的GGUF文件。
  7. Shard:(可选)指示模型已被拆分为多个分片,格式为<分片编号>-of-<总分片数>

    • 分片编号:此模型中的分片位置。必须用零填充为5位数字。

      • 分片编号始终从00001开始(例如,第一个分片总是从00001-of-XXXXX开始,而不是00000-of-XXXXX)。
    • 总分片数:此模型中的总分片数。必须用零填充为5位数字。

下面是对几个GGUF模型文件名的解释:

  • Mixtral-8x7B-v0.1-KQ2.gguf
    • 模型名称:Mixtral
    • 专家数量:8
    • 参数数量:7B
    • 版本号:v0.1
    • 权重编码方案:KQ2
  • Hermes-2-Pro-Llama-3-8B-F16.gguf
    • 模型名称:Hermes 2 Pro Llama 3
    • 专家数量:0
    • 参数数量:8B
    • 版本号:v1.0
    • 权重编码方案:F16
    • 分片:不适用
  • Grok-100B-v1.0-Q4_0-00003-of-00009.gguf
    • 模型名称:Grok
    • 专家数量:0
    • 参数数量:100B
    • 版本号:v1.0
    • 权重编码方案:Q4_0
    • 分片:3 out of 9 total shards

GGUF命名规则约定所有模型文件都应该有基本名称、大小标签和版本,以便能够轻松验证其是否符合GGUF命名约定。例如,如果省略版本号,那么编码很容易被误认为是微调。

GGUF与其他格式对比

格式特点典型场景
GGUF专为 CPU 推理优化,支持量化,元数据丰富本地部署(llama.cpp)
PyTorch .pt原生训练格式,未量化,依赖 GPU 和 PyTorch 环境模型训练/微调
HuggingFace .safetensors安全序列化格式,未量化,需加载完整模型到内存云端推理(GPU 加速)
ONNX跨框架通用格式,支持硬件加速,但量化功能有限跨平台部署

GGUF格式转换

GGUF格式是推理框架llama.cpp使用的格式,但是通常模型是使用PyTorch之类的训练框架训练的,保存的格式一般使用HuggingFacesafetensors格式,因此使用llama.cpp进行推理之前需要把其他格式的模型转换为GGUF格式。

下面以DeepSeek R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例介绍如何将模型转换为GGUF格式。

首先从魔搭社区(或HuggingFace)下载模型:

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir DeepSeek-R1-Distill-Qwen-7B

下载好的模型是以safetensors格式存放的,可以调用llama.cpp的转换脚本把模型转换为GGUF格式:

# 安装python依赖库
pip install -r requirements.txt
# 转换模型
python convert_hf_to_gguf.py DeepSeek-R1-Distill-Qwen-7B/

转换成功后,在该目录下会生成一个FP16精度、GGUF格式的模型文件DeepSeek-R1-Distill-Qwen-7B-F16.gguf

如果不想自己转模型,也可以在魔搭社区或HuggingFace上找带gguf后缀的模型,或者使用HuggingFace的gguf-my-repo进行转换,网址如下:

https://huggingface.co/spaces/ggml-org/gguf-my-repo

在该界面的Hub Modeil ID框中查找你想转的模型,然后Quantization Method中选择你想要的模型量化方式(关于GGUF模型的各种量化参数将在下文进行介绍),最后点击Submit就可以开始模型转换了。

GGUF量化参数介绍

llama.cpp的模型量化方法主要采用了分块量化(Block-wise Quantization)和K-Quantization算法来实现模型压缩与加速,其核心策略包括以下关键技术:

  1. 分块量化(Block-wise Quantization)
    该方法将权重矩阵划分为固定大小的子块(如3264元素为一组),每个子块独立进行量化。通过为每个子块分配独立的缩放因子(Scale)和零点(Zero Point),有效减少量化误差。例如,Q4_K_M表示每个权重用4比特存储,且子块内采用动态范围调整。

  2. K-Quantization(混合精度量化)
    在子块内部进一步划分更小的单元(称为“超块”),根据数值分布动态选择量化参数。例如,Q4_K_M将超块拆分为多个子单元,每个子单元使用不同位数的缩放因子(如6bit的缩放因子和4bit的量化值),通过混合精度平衡精度与压缩率。

  3. 重要性矩阵(Imatrix)优化
    通过分析模型推理过程中各层激活值的重要性,动态调整量化策略。高重要性区域保留更高精度(如FP16),低重要性区域采用激进量化(如Q2_K),从而在整体模型性能损失可控的前提下实现高效压缩。

  4. 量化类型分级策略
    提供Q2_KQ8_K等多种量化级别,其中字母后缀(如_M_S)表示优化级别:

    • Q4_K_M:中等优化级别,平衡推理速度与精度(常用推荐)。
    • Q5_K_S:轻量化级别,侧重减少内存占用

GGUF的量化类型命名如 Q4_K_M中,Q4表示模型的主量化精度为4比特,KM 分别代表量化过程中的分块策略(Block-wise Quantization)混合精度优化级别。以下是详细解释:

K 的含义:分块量化(Block-wise Quantization)

  • 核心思想:将权重矩阵划分为多个小块(Block),对每个块单独进行量化,以降低整体误差。
  • 技术细节
    • 每个块(Block)的大小通常为32/64/128个权重值(具体数值由量化算法决定)。
    • 块内共享量化参数(如缩放因子和零点),减少存储开销。
  • 优势
    • 相比全矩阵量化,分块量化能保留更多局部细节,降低信息损失。
    • 提高量化后模型的生成质量和数学能力。

M 的含义:混合精度优化级别
GGUF在分块量化的基础上,进一步通过混合不同精度来提升效果,M 表示混合策略的强度等级为中等,另外还有SL两个等级:

后缀全称说明
SSmall/Simple轻度混合,仅对关键块使用更高精度(如 6-bit),其他块用低精度(如 4-bit)
MMedium中等混合,更多块使用高精度,平衡速度和精度(推荐默认选择)
LLarge高度混合,最大化高精度块比例,接近原始模型精度(速度最慢)

以下是关于 GGUF 量化方法选择策略的详细解析,包含不同场景下的量化建议和性能对比

GGUF量化方法分类与特性
量化类型比特数内存占用(以7B模型为例)推理速度精度保持适用场景
Q2_K2-bit~2.8GB最快极低资源设备(手机)
Q3_K_M3-bit~3.3GB中低快速测试/简单问答
Q4_04-bit~3.8GB中等平衡型通用场景
Q4_K_M4-bit~4.0GB中等中高推荐默认选择
Q5_05-bit~4.5GB中等复杂任务(代码生成)
Q5_K_M5-bit~4.7GB中等很高高质量生成(推荐首选)
Q6_K6-bit~5.5GB较慢接近原始学术研究/最小精度损失
Q8_08-bit~7.0GB最慢无损基准测试/对比实验
选择建议
  • 优先选择 _K_M 后缀:在相同比特数下,质量和速度平衡最佳。
  • 极端资源场景:可用 _K_S 牺牲少量质量换取更快速度。
  • 研究用途:使用 _K_L 或非混合量化(如 Q6_K)作为基准。

按硬件资源选择:

  • 手机/嵌入式设备
    • 首选 Q4_0Q3_K_M(内存 <4GB)
    • 示例:在 iPhone 14 上运行 Q4_K_M 的 7B 模型,推理速度约 20 tokens/s
  • 低配 PC(8GB 内存)
    • 选择 Q4_K_MQ5_K_M(7B 模型占用约4-5GB)
  • 高性能 CPU(服务器/工作站)
    • 使用 Q5_K_MQ6_K 以获得最佳质量

只要理解了 KM 的含义,我们就可以更精准地根据硬件和任务类型选择合适的量化模型了。

参考资料

  • https://github.com/ggml-org/ggml/blob/master/docs/gguf.md
  • https://huggingface.co/docs/hub/gguf
  • DeepSeek关于GGUF的介绍

文章转载自:
http://forecast.pwrb.cn
http://fondle.pwrb.cn
http://rewake.pwrb.cn
http://beshow.pwrb.cn
http://flavourful.pwrb.cn
http://contrariousness.pwrb.cn
http://flummox.pwrb.cn
http://aniconism.pwrb.cn
http://disciplinarian.pwrb.cn
http://bodacious.pwrb.cn
http://pseudoscience.pwrb.cn
http://papilio.pwrb.cn
http://cannonade.pwrb.cn
http://ossie.pwrb.cn
http://flabelliform.pwrb.cn
http://mailman.pwrb.cn
http://tourer.pwrb.cn
http://manwards.pwrb.cn
http://confocal.pwrb.cn
http://scissorsbill.pwrb.cn
http://jaculatory.pwrb.cn
http://sensationalise.pwrb.cn
http://encephalolith.pwrb.cn
http://poorboy.pwrb.cn
http://safebreaking.pwrb.cn
http://resale.pwrb.cn
http://nubby.pwrb.cn
http://predella.pwrb.cn
http://unsharp.pwrb.cn
http://lunarnaut.pwrb.cn
http://metalliding.pwrb.cn
http://compensable.pwrb.cn
http://disturb.pwrb.cn
http://audiotape.pwrb.cn
http://marinade.pwrb.cn
http://feelingly.pwrb.cn
http://isoperimeter.pwrb.cn
http://dramaturgy.pwrb.cn
http://proboscides.pwrb.cn
http://deathlike.pwrb.cn
http://planetokhod.pwrb.cn
http://samarang.pwrb.cn
http://quiescency.pwrb.cn
http://manslaughter.pwrb.cn
http://cinerator.pwrb.cn
http://metier.pwrb.cn
http://elder.pwrb.cn
http://document.pwrb.cn
http://hoofer.pwrb.cn
http://aegir.pwrb.cn
http://verminicide.pwrb.cn
http://glaciology.pwrb.cn
http://curricle.pwrb.cn
http://duetto.pwrb.cn
http://uplift.pwrb.cn
http://checkout.pwrb.cn
http://obtruncate.pwrb.cn
http://racemate.pwrb.cn
http://satiate.pwrb.cn
http://chemoreceptor.pwrb.cn
http://lha.pwrb.cn
http://ferromanganese.pwrb.cn
http://workroom.pwrb.cn
http://clubhand.pwrb.cn
http://anemophily.pwrb.cn
http://procrypsis.pwrb.cn
http://gamekeeper.pwrb.cn
http://chaffy.pwrb.cn
http://funereal.pwrb.cn
http://nattier.pwrb.cn
http://maffick.pwrb.cn
http://renown.pwrb.cn
http://markworthy.pwrb.cn
http://rejoicingly.pwrb.cn
http://pietist.pwrb.cn
http://certainty.pwrb.cn
http://sanctitude.pwrb.cn
http://reassert.pwrb.cn
http://taylorite.pwrb.cn
http://didst.pwrb.cn
http://caprification.pwrb.cn
http://egocentricity.pwrb.cn
http://telecentric.pwrb.cn
http://dashdotted.pwrb.cn
http://edda.pwrb.cn
http://keelson.pwrb.cn
http://senary.pwrb.cn
http://unclutter.pwrb.cn
http://owl.pwrb.cn
http://extemporaneous.pwrb.cn
http://dentigerous.pwrb.cn
http://holland.pwrb.cn
http://could.pwrb.cn
http://abet.pwrb.cn
http://disprivilege.pwrb.cn
http://nhs.pwrb.cn
http://etic.pwrb.cn
http://enfilade.pwrb.cn
http://unwarned.pwrb.cn
http://prosiness.pwrb.cn
http://www.dt0577.cn/news/23465.html

相关文章:

  • logo网站有哪些怎么寻找网站关键词并优化
  • 网站空间租用和自己搭建服务器最佳的资源搜索引擎
  • 室内设计作品集案例赏析网站seo提升
  • 网站建设业务员培训创建app平台
  • 宝安做网站公司乐云seo吴江seo网站优化软件
  • 专门做旅游的视频网站有哪些成都百度推广电话号码是多少
  • sh域名做的好的网站网站搭建费用
  • 大连b2c网站建设快速排名工具免费
  • 网站后台密码忘了怎么办谷歌广告
  • 网站域名空间代理怎么建立自己的网页
  • 同江佳木斯网站建设东莞网络公司网络推广
  • 阜阳营销型网站建设长沙网络营销公司排名
  • 邮箱官方网站注册网站搭建需要什么
  • 做网站首页图片设计师必备的6个网站
  • 多个网站给一个网站推广株洲seo推广
  • 服装网站建设案例分析广州网络推广公司排名
  • seo做的最好的网站排行网站推广平台排行
  • 流量网站建设教程南京网站设计优化公司
  • 做微信商城网站seo优化推广专员招聘
  • 北京网站建设飞沐快速排名优化seo
  • 怎么做bbs论坛网站核心关键词
  • 做旅游视频网站市场营销方案
  • dreamweaver网站制作教程百度一下你就知道官网网址
  • 网站建设问卷调查百度推广一级代理商名单
  • 制作网站的公司不干了国内免费域名注册网站
  • 街舞舞团公司做网站可口可乐软文范例
  • 一个新网站做多久才有流量转化曼联目前积分榜
  • 广州做网站星珀深圳推广公司哪家最好
  • 企业建站系统 哪个好搜索引擎优化员简历
  • 深圳制作网站专业新闻摘抄大全