数据集卡片
什么是数据集卡片?
每个数据集都可以通过仓库中的 README.md 文件进行记录,这个文件称为数据集卡片。Hugging Face Hub 会在数据集首页渲染其内容。为了帮助用户负责任地使用数据,建议在卡片中注明数据集可能存在的偏差。总体而言,数据集卡片能够帮助用户理解数据集的内容,并说明该如何使用。
你还可以在卡片中添加数据集元数据。元数据用于描述数据集的重要信息,例如许可证、语言、规模等,还包含了帮助用户在 Hub 上发现数据集的标签以及数据文件配置选项。标签定义在 README.md 文件顶部的 YAML 元数据部分。
数据集卡片元数据
数据集仓库会将 README.md 渲染为数据集卡片。为了控制 Hub 如何展示卡片,你应在 README 文件中添加 YAML 区域定义元数据。示例:在文件顶部添加三个连字符 ---,写入相关元数据,最后再使用三个 --- 结束该区域:
language:
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2
你在数据集卡片中添加的元数据会在 Hub 上启用一些交互功能,例如:
- 允许用户在 https://huggingface.co/datasets 上筛选并发现数据集。
- 如果使用了此表右列中的关键字选择许可证,该许可证会显示在数据集页面中。
在 Hub 的数据集仓库中创建 README.md 时,可使用元数据 UI 填写核心元数据:


想了解所有元数据字段,请参阅详细的数据集卡片规格。