跳到主要内容

下载数据集

集成的库

如果 Hub 上的数据集关联了支持的库,只需几行代码即可加载。在数据集页面点击 “Use this dataset” 按钮即可查看示例用法。举例来说,samsum 展示了如何使用 🤗 Datasets 加载。

使用数据集使用数据集
使用数据集使用数据集

使用 Hugging Face 客户端库

你可以使用 huggingface_hub 来创建、删除、更新仓库并获取信息。例如,若要在命令行下载 HuggingFaceH4/ultrachat_200k 数据集,请运行:

hf download HuggingFaceH4/ultrachat_200k --repo-type dataset

更多信息请查看 HF CLI 下载文档

你也可以将其集成到自己的库中!例如,只需几行代码就能使用 Pandas 快速加载 CSV 数据集。

from huggingface_hub import hf_hub_download
import pandas as pd

REPO_ID = "YOUR_REPO_ID"
FILENAME = "data.csv"

dataset = pd.read_csv(
hf_hub_download(repo_id=REPO_ID, filename=FILENAME, repo_type="dataset")
)

使用 Git

由于 Hub 上的所有数据集都是 Git 仓库,你可以通过以下命令将数据集克隆到本地:

git lfs install
git clone [email protected]:datasets/<dataset ID> # 示例:git clone [email protected]:datasets/allenai/c4

如果你对该数据集仓库具有写权限,还可以提交并推送数据集的修订内容。

将 SSH 公钥添加到用户设置后,即可推送更改并/或访问私有仓库。