请求限制 (Rate Limits)
速率限制如何运作?
默认情况下,所有套餐的 Agent 功能都会受到速率限制。我们采用两种限制类型:突发速率限制(burst rate limits)和本地速率限制(local rate limits)。突发速率限制可随时应对高并发会话,但恢复速度较慢;本地速率限制则会每隔数小时完全重置。
速率限制的计算基于会话期间使用的总计算资源。具体数值会根据以下因素动态调整:
- 所选模型类型
- 消息长度(包含附件文件大小)
- 当前对话上下文长度
我能将 Max Mode 作为我的速率限制的一部分使用吗?
是的,Max Mode 的使用包含在付费计划的速率限制中,在速率限制范围内使用时无需额外费用。
我能获得多少计算资源?
突发限制始终会高于计划的成本!如果你购买了 Pro 版,你将始终能在看到任何速率限制之前,以 API 价格使用超过 20 美元的模型推理。 用户在使用“自动”模型选择器时,可获得 无限的代理请求,这些请求会被路由到当时有容量的前沿模型。
如何提供如此大规模的计算资源?
为推出 Pro 版和 Ultra 版本,我们与模型供应商深度合作,提供了远超市场标准价格的计算资源支持。
达到限制后如何处理?
当用户同时耗尽本地和突发限制时,系统会明确通知用户并提供以下三种解决方案:
- 切换至更高速率限制的模型(例如 Sonnet 模型比 Opus 模型拥有更高限制)
- 升级至更高阶套餐Pro+(每月 60 美元,速率限制为 Pro 的 3 倍),或 Ultra(每月 200 美元,速率限制为 Pro 的 20 倍)
- 启用按用量计费模式 为超出速率限制的请求付费
请求在达到速率限制时,其质量或速度永远不会降低。当用户达到速率限制时,始终会显示明确的错误消息。