跳到主要内容

数据集卡片

什么是数据集卡片?

每个数据集都可以通过仓库中的 README.md 文件进行记录,这个文件称为数据集卡片。Hugging Face Hub 会在数据集首页渲染其内容。为了帮助用户负责任地使用数据,建议在卡片中注明数据集可能存在的偏差。总体而言,数据集卡片能够帮助用户理解数据集的内容,并说明该如何使用。

你还可以在卡片中添加数据集元数据。元数据用于描述数据集的重要信息,例如许可证、语言、规模等,还包含了帮助用户在 Hub 上发现数据集的标签以及数据文件配置选项。标签定义在 README.md 文件顶部的 YAML 元数据部分。

数据集卡片元数据

数据集仓库会将 README.md 渲染为数据集卡片。为了控制 Hub 如何展示卡片,你应在 README 文件中添加 YAML 区域定义元数据。示例:在文件顶部添加三个连字符 ---,写入相关元数据,最后再使用三个 --- 结束该区域:

language: 
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2

你在数据集卡片中添加的元数据会在 Hub 上启用一些交互功能,例如:

  • 允许用户在 https://huggingface.co/datasets 上筛选并发现数据集。
  • 如果使用了此表右列中的关键字选择许可证,该许可证会显示在数据集页面中。

在 Hub 的数据集仓库中创建 README.md 时,可使用元数据 UI 填写核心元数据:

数据集卡片元数据数据集卡片元数据

想了解所有元数据字段,请参阅详细的数据集卡片规格

数据集卡片创建指南

有关数据集卡片的逐步指南,请查看创建数据集卡片

阅读现有的数据集卡片(例如 ELI5 数据集卡片)是了解常见写法的好方式。

链接论文

如果数据集卡片中包含论文页面链接(无论是 HF 的 Paper 页面或 arXiv 的摘要/PDF),Hub 会提取 arXiv ID,并以 arxiv:<PAPER ID> 形式将其加入数据集标签。点击该标签即可:

  • 浏览论文页面。
  • 筛选 Hub 上引用该论文的其他模型。
数据集卡片论文数据集卡片论文

更多内容请阅读论文页面

强制设置数据集模态

Hub 会根据数据集中包含的文件自动检测模态(音频、视频、地理空间等)。如果你希望强制指定模态,可以在数据集卡片的元数据中添加以下标签之一:3daudiogeospatialimagetabulartexttimeseriesvideo

例如,若要将模态强制设置为 audio,在数据集卡片元数据中添加:

tags:
- audio

将数据集关联到特定库

数据集页面会自动显示能够原生加载该数据集的库与工具。如果你想展示其他特定库,可以在数据集卡片的元数据中添加以下标签之一:argilladaskdatasetsdistilabelfiftyonemlcroissantpandaswebdataset。更多信息或提议新增库,请查看支持库列表

例如,若要将 argilla 库关联到数据集卡片,添加:

tags:
- argilla