跳到主要内容

身份验证

要访问私有或 gated 数据集,必须先完成身份验证。验证方式是提供一个访问令牌(access token),Polars 会使用该令牌来验证和授权你对 gated 与私有数据集的访问。第一步是为你的账号创建一个访问令牌,可以在 Hugging Face 设置 - Tokens 页面完成。

提供 token 有三种方式:设置环境变量、在读取函数中通过参数显式传入,或者使用 Hugging Face CLI。

环境变量

如果你设置了环境变量 HF_TOKEN,Polars 会在请求 Hugging Face 上的数据集时自动使用该 token。

export HF_TOKEN="hf_xxxxxxxxxxxxx"

通过参数传入

你也可以通过 storage_options 参数将访问令牌显式传递给读取函数(例如 read_parquet)。关于所有可用参数的完整说明,可以查看 API 参考文档

pl.read_parquet(
"hf://datasets/roneneldan/TinyStories/data/train-*.parquet",
storage_options={"token": ACCESS_TOKEN},
)

CLI

此外,你也可以使用 Hugging Face CLI 来完成身份验证。使用 hf auth login 成功登录后,一个访问令牌会存储在 HF_HOME 目录下(默认路径为 ~/.cache/huggingface)。Polars 之后会使用该 token 进行认证。

如果同时配置了多种方式,它们的优先级顺序如下:

  • 参数(storage_options
  • 环境变量(HF_TOKEN
  • CLI