速率限制
为保护平台完整性,并确保尽可能多的 AI 社区成员能够使用,我们对所有发往 Hugging Face Hub 的请求实施速率限制。
我们针对不同类别的请求设定不同的速率限制,主要区分三个存储桶:
- Hub API
- 例如模型或数据集搜索、仓库创建、用户管理等。此存储桶内的全部端点记录在 Hub API 端点 文档中。
- Resolvers
- 指路径中包含
/resolve/的所有 URL,用于从 Hub 提供用户生成内容。实际上,这些 URL 由开源库(transformers、datasets、vLLM、llama.cpp 等)或 AI 应用(LM Studio、Jan、ollama 等)构建,用于从 HF 下载模型或数据集文件。 - 具体来说,这对应于我们 OpenAPI 规范中记录的“Resolve a file” 端点。
- 社区对 Resolve 请求的使用量很大,我们也对其进行高效优化,因此 Resolver 的速率限制最高。
- 指路径中包含
- Pages
- 指我们在 huggingface.co 上托管的所有网页。
- 通常网页浏览请求由人工发起,因此速率限制不需要像上面提到的程序化端点那样高。
所有数值均以 5 分钟窗口计算,这样从应用或开发者视角看,允许一定程度的“突发”流量。
如果你或你的组织/应用需要更高的速率限制,建议升级到 PRO、Team 或 Enterprise。我方优先处理 PRO、Team 与 Enterprise 客户的支持请求——参见速率限制分层中的内置额度。
计费仪表盘
你可以随时访问自己(或组织)的计费页面查看速率限制状态:https://huggingface.co/settings/billing

右侧会看到三个仪表盘,分别对应三类请求。
每个桶都会显示当前(最近 5 分钟)请求次数,以及基于账户或组织计划允许的请求数量。
当过去 5 分钟内超出限制时(界面实时更新),柱状条会变成红色。
提示:你可以使用上下文切换器在个人账户与所属组织之间快速切换。
HTTP 头部
当你或组织触发速率限制时,会收到 429 Too Many Requests HTTP 错误。
我们实现了 IETF 草案(第 9 版)中描述的机制,题为“RateLimit HTTP header fields for HTTP”(亦称 draft-ietf-httpapi-ratelimit-headers)。
其目标是定义标准化 HTTP 头部,供服务器公布配额/速率限制策略,并向客户端告知当前使用情况,帮助客户端避免被限流。
我们具体实现以下头部:
| Header | 目的/含义 |
|---|---|
RateLimit | 当前窗口内允许的总请求数。“在该窗口内你可以执行多少此类请求。” |
RateLimit-Policy | 携带速率限制策略本身(例如 “100 requests per 5 minutes”)。这是信息性字段,表明客户端当前受何种策略约束。 |
示例如下:
| Header | 示例 |
|---|---|
RateLimit | "api|pages|resolvers";r=[remaining];t=[seconds remaining until reset] |
RateLimit-Policy | "fixed window";"api|pages|resolvers";q=[total allowed for window];w=[window duration in seconds] |
速率限制分层
以下为当前(2025 年 9 月)根据计划划分的速率限制:
| 计划 | API | Resolvers | Pages |
|---|---|---|---|
| 匿名用户(按 IP 地址计算) | 500 * | 3,000 * | 100 * |
| 免费用户 | 1,000 * | 5,000 * | 200 * |
| PRO 用户 | 2,500 | 12,000 | 400 |
| Team 组织 | 3,000 | 20,000 | 400 |
| Enterprise 组织 | 6,000 | 50,000 | 600 |
| Enterprise Plus 组织 | 6,000 | 50,000 | 600 |
| Enterprise Plus 组织 定义组织 IP 范围后 | 100,000 | 500,000 | 10,000 |
| Academia Hub 组织 | 2,500 | 12,000 | 400 |
* 匿名与免费用户的配额会随平台运行状况调整 🤞
所有配额均以 5 分钟固定窗口计算。
提示:对组织而言,速率限制对成员逐一生效,不会在成员间共享。
如果我被限流了怎么办
首先确保始终传递 HF_TOKEN,并且该令牌会在所有下载 Hub 内容的库或应用之间透传。
这是用户被限速的首要原因,也是最容易修复的问题。
若即便传递了 HF_TOKEN 仍遭限流,可以:
- 拉长请求间隔,平滑流量
- 尽可能将 Hub API 调用替换为 Resolver 调用(Resolver 的速率限制更高且优化程度更好)
- 升级到 PRO、Team 或 Enterprise
更细粒度的用户操作速率限制
除上述主要类别外,我们还对某些具体用户操作设置限制,例如:
- 仓库创建
- 仓库提交
- 讨论与评论
- 内容审核操作
- 等等
我们暂未公开这些具体操作的速率限制,因为它们可能会更频繁调整。如果遇到配额错误,建议升级到 PRO、Team 或 Enterprise。欢迎通过支持团队与我们联系。