在 Hugging Face Hub 上使用 Ollama 与任何 GGUF 模型

cover

🆕 你现在也可以从 Hugging Face Hub 运行私有 GGUF 文件。

Ollama 是一个基于 llama.cpp 的应用程序，可以直接通过你的计算机与 LLM 交互。你可以直接使用 Hugging Face 上社区创建的任意 GGUF 量化模型（bartowski、MaziyarPanahi 以及更多），而无需创建新的 Modelfile。在撰写本文时，Hub 上有 45K 个公共 GGUF 检查点，你可以使用单个 ollama run 命令运行其中任何一个。我们还提供自定义选项，如选择量化类型、系统提示等，以改善你的整体体验。

开始使用非常简单：

在你的本地应用设置中启用 ollama。
在模型页面上，从 Use this model 下拉菜单中选择 ollama。例如：bartowski/Llama-3.2-1B-Instruct-GGUF。

代码片段格式如下：

ollama run hf.co/{username}/{repository}

请注意，你可以使用 hf.co 和 huggingface.co 作为域名。

以下是一些你可以尝试的模型：

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

自定义量化

默认情况下，如果模型仓库中存在 Q4_K_M 量化方案，则使用该方案。如果不存在，我们默认选择仓库中存在的一个合理的量化类型。

要选择不同的方案，只需：

在模型页面的 Files and versions 标签页中，打开特定 GGUF 文件的 GGUF 查看器。
从 Use this model 下拉菜单中选择 ollama。

代码片段格式如下（添加了量化标签）：

ollama run hf.co/{username}/{repository}:{quantization}

例如：

ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

# 量化名称不区分大小写，这样也可以工作
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m

# 你也可以直接使用完整文件名作为标签
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf

自定义聊天模板和参数

默认情况下，将从常用模板列表中自动选择一个模板。它将基于存储在 GGUF 文件中的内置 tokenizer.chat_template 元数据进行选择。

如果你的 GGUF 文件没有内置模板，或者你想要自定义聊天模板，你可以在仓库中创建一个名为 template 的新文件。模板必须是 Go 模板，而不是 Jinja 模板。以下是一个示例：

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>

要了解更多关于 Go 模板格式的信息，请参阅此文档。

你可以通过在仓库中创建一个名为 system 的新文件来可选地配置系统提示。

要更改采样参数，请在仓库中创建一个名为 params 的文件。文件必须是 JSON 格式。有关所有可用参数的列表，请参阅此文档。

从 Hugging Face Hub 运行私有 GGUF 文件

你可以通过两个简单步骤从你的个人账户或关联的组织账户运行私有 GGUF 文件：

复制你的 Ollama SSH 密钥，你可以通过以下方式完成：cat ~/.ollama/id_ed25519.pub | pbcopy
通过访问你的账户设置并点击 Add new SSH key，将相应的密钥添加到你的 Hugging Face 账户。
就是这样！你现在可以从 Hugging Face Hub 运行私有 GGUF 文件：ollama run hf.co/{username}/{repository}。

自定义量化​

自定义聊天模板和参数​

从 Hugging Face Hub 运行私有 GGUF 文件​

参考资料​

自定义量化

自定义聊天模板和参数

从 Hugging Face Hub 运行私有 GGUF 文件

参考资料