本地使用 AI 模型
你可以在本地机器上运行 Hub 中的 AI 模型。这意味着你可以从这些优势中受益:
- 隐私:你不会将数据发送到远程服务器。
- 速度:你的硬件是限制因素,而不是服务器或连接速度。
- 控制:你可以根据自己的喜好配置模型。
- 成本:你可以在本地运行模型,而无需为 API 提供商付费。
如何使用本地应用
本地应用是可以在你的机器上直接运行 Hugging Face 模型的应用程序。要开始使用:
- 在你的本地应用设置中启用本地应用。

- 通过搜索从 Hub 选择支持的模型。你可以在导航栏的
Other部分按app筛选:

- 在模型页面的"使用此模型"下拉菜单中选择本地应用。

- 复制并运行终端中提供的命令。

支持的本地应用
检查本地应用是否受支持的最佳方法是转到本地应用设置并查看是否列出了该应用。以下是一些最流行的本地应用的快速概述:
[!TIP] 👨💻 要使用这些本地应用,请从模型卡片复制代码片段,如上所述。
👷 如果你正在构建本地应用,可以在本指南中了解如何与 Hub 集成。
Llama.cpp
Llama.cpp 是一个高性能 C/C++ 库,用于在本地运行 LLM,在多种不同硬件(包括 CPU、CUDA 和 Metal)上提供优化的推理。
优势:
- 在多个 CPU 系列上基于 CPU 的模型性能极快
- 资源使用率低
- 多种接口选项(CLI、服务器、Python 库)
- 针对 CPU 和 GPU 进行硬件优化
要使用 Llama.cpp,请导航到模型卡片,点击"使用此模型"并复制命令。
# Load and run the model:
./llama-server -hf unsloth/gpt-oss-20b-GGUF:Q4_K_M
Ollama
Ollama 是一个应用程序,允许你通过简单的命令行界面在计算机上本地运行大语言模型。
优势:
- 易于安装和设置
- 与 Hugging Face Hub 直接集成
要使用 Ollama,请导航到模型卡片,点击"使用此模型"并复制命令。
ollama run hf.co/unsloth/gpt-oss-20b-GGUF:Q4_K_M
Jan
Jan 是一个开源 ChatGPT 替代品,完全离线运行,具有用户友好的界面。
优势:
- 用户友好的 GUI
- 与文档和文件聊天
- OpenAI 兼容的 API 服务器,因此你可以运行模型并从其他应用使用它们
要使用 Jan,请导航到 模型卡片并点击"使用此模型"。Jan 将打开,你可以通过界面开始聊天。
LM Studio
LM Studio 是一个桌面应用程序,提供了一种简单的方法来下载、运行和试验本地 LLM。
优势:
- 直观的图形界面
- 内置模型浏览器
- 开发工具和 API
- 个人和商业用途免费
导航到模型卡片并点击"使用此模型"。LM Studio 将打开,你可以通过界面开始聊天。