数据文件配置

对如何构建数据集仓库没有约束。

但是，如果你希望数据集查看器显示某些数据文件，或者将数据集分离为训练/验证/测试切分，你需要相应地构建数据集。通常，只需根据切分名称命名数据文件即可，例如 train.csv 和 test.csv。

什么是切分和子集？

机器学习数据集通常有切分，也可能有子集。数据集通常由_切分_（例如 train 和 test）组成，这些切分在训练和评估模型的不同阶段使用。子集（也称为_配置_）是包含在更大数据集中的子数据集。子集在多语言语音数据集中尤其常见，其中每种语言可能有不同的子集。如果你有兴趣了解更多关于切分和子集的信息，请查看切分和子集指南！

split-configs-server

自动切分检测

切分根据文件和目录名称自动检测。例如，这是一个具有 train、test 和 validation 切分的数据集：

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要通过根据切分名称命名数据文件或目录来构建数据集，请参阅文件名和切分文档和配套的示例数据集集合。

手动切分和子集配置

你可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果你想要手动指定哪个文件属于哪个切分，这很有用。

你还可以为数据集定义多个子集，并传递数据集构建参数（例如用于 CSV 文件的分隔符）。

以下是一个配置示例，定义了一个名为 "benchmark" 的子集，其中包含 test 切分。

configs:
- config_name: benchmark
  data_files:
  - split: test
    path: benchmark.csv

有关更多信息，请参阅手动配置文档。也可以查看示例数据集。

支持的文件格式

请参阅文件格式文档页面，查找支持格式的列表和针对你的数据集的建议。如果你的数据集使用 CSV 或 TSV 文件，你可以在示例数据集中找到更多信息。

图像、音频和视频数据集

对于图像/音频/视频分类数据集，你也可以使用目录来命名图像/音频/视频类别。如果你的图像/音频/视频文件有元数据（例如标题、边界框、转录等），你可以在它们旁边放置元数据文件。

我们提供了两个指南供你查看：

什么是切分和子集？​

自动切分检测​

手动切分和子集配置​

支持的文件格式​

图像、音频和视频数据集​

什么是切分和子集？

自动切分检测

手动切分和子集配置

支持的文件格式

图像、音频和视频数据集