跳到主要内容

音频数据集

本指南将向你展示如何配置包含音频文件的数据集仓库。你可以在此音频数据集示例集合中找到配套的仓库示例。

具有支持的结构和文件格式的数据集会在 Hub 上的页面自动拥有数据集查看器。


有关音频文件的附加信息(例如转录)会自动加载,只要你将此信息包含在元数据文件(metadata.csv/metadata.jsonl/metadata.parquet)中。

或者,音频文件可以位于 Parquet 文件中,或位于遵循 WebDataset 格式的 TAR 归档文件中。

仅音频文件

如果你的数据集仅包含一个音频列,你可以简单地将音频文件存储在根目录:

my_dataset_repository/
├── 1.wav
├── 2.wav
├── 3.wav
└── 4.wav

或存储在子目录中:

my_dataset_repository/
└── audio
├── 1.wav
├── 2.wav
├── 3.wav
└── 4.wav

同时支持多种格式,包括 AIFF、FLAC、MP3、OGG 和 WAV。

my_dataset_repository/
└── audio
├── 1.aiff
├── 2.ogg
├── 3.mp3
└── 4.flac

如果你有多个切分,可以将音频文件放在相应命名的目录中:

my_dataset_repository/
├── train
│ ├── 1.wav
│ └── 2.wav
└── test
├── 3.wav
└── 4.wav

有关更多信息和其他按切分组织数据的方法,请参阅文件名和切分

附加列

如果你想要包含有关数据集的附加信息(例如转录),请将其作为 metadata.csv 文件添加到仓库中。这使你可以快速创建用于不同音频任务的数据集,如文本转语音自动语音识别

my_dataset_repository/
├── 1.wav
├── 2.wav
├── 3.wav
├── 4.wav
└── metadata.csv

你的 metadata.csv 文件必须有一个 file_name 列,用于将音频文件与其元数据链接:

file_name,animal
1.wav,cat
2.wav,cat
3.wav,dog
4.wav,dog

你也可以使用 JSONL 文件 metadata.jsonl

{"file_name": "1.wav","text": "cat"}
{"file_name": "2.wav","text": "cat"}
{"file_name": "3.wav","text": "dog"}
{"file_name": "4.wav","text": "dog"}

对于更大的数据集,或者如果你对高级数据检索功能感兴趣,可以使用 Parquet 文件 metadata.parquet

相对路径

元数据文件必须位于与其链接的音频文件相同的目录中,或位于任何父目录中,如以下示例:

my_dataset_repository/
└── test
├── audio
│ ├── 1.wav
│ ├── 2.wav
│ ├── 3.wav
│ └── 4.wav
└── metadata.csv

在这种情况下,file_name 列必须是音频文件的完整相对路径,而不仅仅是文件名:

file_name,animal
audio/1.wav,cat
audio/2.wav,cat
audio/3.wav,dog
audio/4.wav,dog

元数据文件不能放在包含音频文件的目录的子目录中。

更一般地说,任何名为 file_name*_file_name 的列都应包含音频文件的完整相对路径。

在此示例中,test 目录用于设置训练切分的名称。有关更多信息,请参阅文件名和切分

音频分类

对于音频分类数据集,你也可以使用简单的设置:使用目录来命名音频类别。将音频文件存储在如下目录结构中:

my_dataset_repository/
├── cat
│ ├── 1.wav
│ └── 2.wav
└── dog
├── 3.wav
└── 4.wav

使用此结构创建的数据集包含两列:audiolabel(值为 catdog)。

你也可以提供多个切分。为此,数据集目录应具有以下结构(有关更多信息,请参阅文件名和切分):

my_dataset_repository/
├── test
│ ├── cat
│ │ └── 2.wav
│ └── dog
│ └── 4.wav
└── train
├── cat
│ └── 1.wav
└── dog
└── 3.wav

你可以在 YAML 配置中禁用 label 列的自动添加。如果你的目录名称没有特殊含义,请在 README 标头中设置 drop_labels: true

configs:
- config_name: default # 数据集子集的名称(如果适用)。
drop_labels: true

大规模数据集

WebDataset 格式

WebDataset 格式非常适合大规模音频数据集(例如,参见 AlienKevin/sbs_cantonese)。 它由包含音频文件及其元数据的 TAR 归档文件组成,并针对流式传输进行了优化。如果你有大量音频文件并希望获得用于大规模训练的流式数据加载器,这很有用。

my_dataset_repository/
├── train-0000.tar
├── train-0001.tar
├── ...
└── train-1023.tar

要创建 WebDataset TAR 归档文件,请创建一个包含要归档的音频文件和元数据文件的目录,然后使用例如 tar 命令创建 TAR 归档文件。 每个归档文件的通常大小通常约为 1GB。 确保每个音频文件和元数据对共享相同的文件前缀,例如:

train-0000/
├── 000.flac
├── 000.json
├── 001.flac
├── 001.json
├── ...
├── 999.flac
└── 999.json

请注意,为了方便用户并启用数据集查看器,Hub 上托管的每个数据集都会自动转换为 Parquet 格式,最多 5GB。 在 Parquet 格式文档中了解更多信息。

Parquet 格式

你可以将所有内容嵌入 Parquet 文件中,而不是将音频文件和元数据作为单独的文件上传。 如果你有大量音频文件,想要嵌入多个音频列,或者想要在同一文件中存储有关音频的附加信息,这很有用。 Parquet 对于存储原始字节等数据也很有用,这些数据不受 JSON/CSV 支持。

my_dataset_repository/
└── train.parquet

可以使用 pandasdatasets 库创建包含音频数据的 Parquet 文件。要在 pandas 中创建包含音频数据的 Parquet 文件,可以使用 pandas-audio-methodsdf.to_parquet()。在 datasets 中,你可以将列类型设置为 Audio() 并使用 ds.to_parquet(...) 方法或 ds.push_to_hub(...)。你可以在这里找到在 datasets 中加载音频数据集的指南。

或者,你可以手动设置使用其他工具创建的 Parquet 的音频类型。首先,确保你的音频列是 struct 类型,其中 "bytes" 字段用于音频数据,"path" 字符串字段用于音频文件名或路径。然后,你应该在 README 标头的 YAML 中直接指定列的特征类型,例如:

dataset_info:
features:
- name: audio
dtype: audio
- name: caption
dtype: string

请注意,Parquet 推荐用于小型音频文件(每个音频文件 <1MB)和小行组(每个行组 100 行,这是 datasets 用于音频的方式)。对于较大的音频文件,建议使用 WebDataset 格式,或共享原始音频文件(可选地带有元数据文件)。