前置:下载llama-gguf-split.exe

步骤 1:合并分块 GGUF 模型

假设你的分块文件命名格式为 <模型名>-<量化类型>-0000x-of-0000y.gguf(例如 my-model-q4_0-00001-of-00002.gguf),按以下命令合并:
.\llama-gguf-split.exe --merge .\my-model-q4_0-00001-of-00002.gguf .<合并后的文件名>.gguf

示例:

假设分块文件为:

my-model-q4_0-00001-of-00002.gguf my-model-q4_0-00002-of-00002.gguf

示例:

PS D:\ollama> .\llama-b4762-bin-win-vulkan-x64\llama-gguf-split.exe --merge .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf .\qwen2.5-7b-instruct-q4_0-merged.gguf
gguf_merge: .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf -> .\qwen2.5-7b-instruct-q4_0-merged.gguf
gguf_merge: reading metadata .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf done
gguf_merge: reading metadata .\qwen2.5-7b-instruct-q4_0-00002-of-00002.gguf done
gguf_merge: writing tensors .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf done
gguf_merge: writing tensors .\qwen2.5-7b-instruct-q4_0-00002-of-00002.gguf done
gguf_merge: .\qwen2.5-7b-instruct-q4_0-merged.gguf merged from 2 split with 339 tensors.

步骤 2:创建 Modelfile

在合并后的模型文件同级目录下,新建 Modelfile 文件(无后缀),内容如下:

FROM ./<合并后的文件名>.gguf

示例:

FROM ./qwen2.5-7b-instruct-q4_0-merged.gguf

步骤 3:将模型导入 Ollama

通过以下命令将模型添加到 Ollama 的本地仓库:

ollama create <自定义模型名称> -f .\Modelfile

示例:

ollama create my-model -f .\Modelfile

步骤 4:运行模型

启动模型并开始对话:

ollama run <自定义模型名称>

示例:

ollama run my-model

你好,请写一首诗
(模型生成结果...)

加上--verbose 参数,显示相应时间:

ollama run my-model --verbose