前置:下载llama-gguf-split.exe
步骤 1:合并分块 GGUF 模型
假设你的分块文件命名格式为 <模型名>-<量化类型>-0000x-of-0000y.gguf(例如 my-model-q4_0-00001-of-00002.gguf),按以下命令合并:
.\llama-gguf-split.exe --merge .\my-model-q4_0-00001-of-00002.gguf .<合并后的文件名>.gguf
示例:
假设分块文件为:
my-model-q4_0-00001-of-00002.gguf
my-model-q4_0-00002-of-00002.gguf
示例:
PS D:\ollama> .\llama-b4762-bin-win-vulkan-x64\llama-gguf-split.exe --merge .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf .\qwen2.5-7b-instruct-q4_0-merged.gguf
gguf_merge: .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf -> .\qwen2.5-7b-instruct-q4_0-merged.gguf
gguf_merge: reading metadata .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf done
gguf_merge: reading metadata .\qwen2.5-7b-instruct-q4_0-00002-of-00002.gguf done
gguf_merge: writing tensors .\qwen2.5-7b-instruct-q4_0-00001-of-00002.gguf done
gguf_merge: writing tensors .\qwen2.5-7b-instruct-q4_0-00002-of-00002.gguf done
gguf_merge: .\qwen2.5-7b-instruct-q4_0-merged.gguf merged from 2 split with 339 tensors.
步骤 2:创建 Modelfile
在合并后的模型文件同级目录下,新建 Modelfile 文件(无后缀),内容如下:
FROM ./<合并后的文件名>.gguf
示例:
FROM ./qwen2.5-7b-instruct-q4_0-merged.gguf
步骤 3:将模型导入 Ollama
通过以下命令将模型添加到 Ollama 的本地仓库:
ollama create <自定义模型名称> -f .\Modelfile
示例:
ollama create my-model -f .\Modelfile
步骤 4:运行模型
启动模型并开始对话:
ollama run <自定义模型名称>
示例:
ollama run my-model
你好,请写一首诗
(模型生成结果...)
加上--verbose
参数,显示相应时间:
ollama run my-model --verbose