跳到主要内容

数据文件配置

对如何构建数据集仓库没有约束。

但是,如果你希望数据集查看器显示某些数据文件,或者将数据集分离为训练/验证/测试切分,你需要相应地构建数据集。 通常,只需根据切分名称命名数据文件即可,例如 train.csvtest.csv

什么是切分和子集?

机器学习数据集通常有切分,也可能有子集。数据集通常由_切分_(例如 traintest)组成,这些切分在训练和评估模型的不同阶段使用。子集(也称为_配置_)是包含在更大数据集中的子数据集。子集在多语言语音数据集中尤其常见,其中每种语言可能有不同的子集。如果你有兴趣了解更多关于切分和子集的信息,请查看切分和子集指南!

split-configs-server

自动切分检测

切分根据文件和目录名称自动检测。例如,这是一个具有 traintestvalidation 切分的数据集:

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要通过根据切分名称命名数据文件或目录来构建数据集,请参阅文件名和切分文档和配套的示例数据集集合

手动切分和子集配置

你可以使用 YAML 选择要在数据集查看器中显示的数据文件。 如果你想要手动指定哪个文件属于哪个切分,这很有用。

你还可以为数据集定义多个子集,并传递数据集构建参数(例如用于 CSV 文件的分隔符)。

以下是一个配置示例,定义了一个名为 "benchmark" 的子集,其中包含 test 切分。

configs:
- config_name: benchmark
data_files:
- split: test
path: benchmark.csv

有关更多信息,请参阅手动配置文档。也可以查看示例数据集

支持的文件格式

请参阅文件格式文档页面,查找支持格式的列表和针对你的数据集的建议。如果你的数据集使用 CSV 或 TSV 文件,你可以在示例数据集中找到更多信息。

图像、音频和视频数据集

对于图像/音频/视频分类数据集,你也可以使用目录来命名图像/音频/视频类别。 如果你的图像/音频/视频文件有元数据(例如标题、边界框、转录等),你可以在它们旁边放置元数据文件。

我们提供了两个指南供你查看: