使用 🤗 Datasets
一旦你在 Hugging Face Hub 上找到了感兴趣的数据集,你可以使用 🤗 Datasets 加载数据集。你可以点击Use this dataset 按钮复制加载数据集的代码。
首先,你需要使用你的 Hugging Face 账户登录,例如使用:
hf auth login
然后,你可以使用以下方式从 Hugging Face Hub 加载数据集:
from datasets import load_dataset
dataset = load_dataset("username/my_dataset")
# 或者如果数据集有训练/验证/测试切分,则加载单独的切分
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset = load_dataset("username/my_dataset", split="test")
你也可以将数据集上传到 Hugging Face Hub:
my_new_dataset.push_to_hub("username/my_new_dataset")
这将创建一个包含 Parquet 格式数据集的数据集仓库 username/my_new_dataset,你可以稍后重新加载它。