身份验证
要访问私有或 gated 数据集,必须先完成身份验证。验证方式是提供一个访问令牌(access token),Polars 会使用该令牌来验证和授权你对 gated 与私有数据集的访问。第一步是为你的账号创建一个访问令牌,可以在 Hugging Face 设置 - Tokens 页面完成。
提供 token 有三种方式:设置环境变 量、在读取函数中通过参数显式传入,或者使用 Hugging Face CLI。
环境变量
如果你设置了环境变量 HF_TOKEN,Polars 会在请求 Hugging Face 上的数据集时自动使用该 token。
export HF_TOKEN="hf_xxxxxxxxxxxxx"
通过参数传入
你也可以通过 storage_options 参数将访问令牌显式传递给读取函数(例如 read_parquet)。关于所有可用参数的完整说明,可以查看 API 参考文档。
pl.read_parquet(
"hf://datasets/roneneldan/TinyStories/data/train-*.parquet",
storage_options={"token": ACCESS_TOKEN},
)
CLI
此外,你也可以使用 Hugging Face CLI 来完成身份验证。使用 hf auth login 成功登录后,一个访问令牌会存储在 HF_HOME 目录下(默认路径为 ~/.cache/huggingface)。Polars 之后会使用该 token 进行认证。
如果同时配置了多种方式,它们的优先级顺序如下:
- 参数(
storage_options) - 环境变量(
HF_TOKEN) - CLI