音频数据集
本指南将向你展示如何配置包含音频文件的数据集仓库。你可以在此音频数据集示例集合中找到配套的仓库示例。
具有支持的结构和文件格式的数据集会在 Hub 上的页面自动拥有数据集查看器。
有关音频文件的附加信息(例如转录)会自动加载,只要你将此信息包含在元数据文件(metadata.csv/metadata.jsonl/metadata.parquet)中。
或者,音频文件可以位于 Parquet 文件中,或位于遵循 WebDataset 格式的 TAR 归档文件中。
仅音频文件
如果你的数据集仅包含一个音频列,你可以简单地将音频文件存储在根目录:
my_dataset_repository/
├── 1.wav
├── 2.wav
├── 3.wav
└── 4.wav
或存储在子目录中:
my_dataset_repository/
└── audio
├── 1.wav
├── 2.wav
├── 3.wav
└── 4.wav
同时支持多种格式,包括 AIFF、FLAC、MP3、OGG 和 WAV。
my_dataset_repository/
└── audio
├── 1.aiff
├── 2.ogg
├── 3.mp3
└── 4.flac
如果你有多个切分,可以将音频文件放在相应命名的目录中:
my_dataset_repository/
├── train
│ ├── 1.wav
│ └── 2.wav
└── test
├── 3.wav
└── 4.wav
有关更多信息和其他按切分组织数据的方法,请参阅文件名和切分。
附加列
如果你想要包含有关数据集的附加信息(例如转录),请将其作为 metadata.csv 文件添加到仓库中。这使你可以快速创建用于不同音频任务的数据集,如文本转语音或自动语音识别。
my_dataset_repository/
├── 1.wav