跳到主要内容

Data Studio

每个数据集页面都会包含一个表格,以每页 100 行的形式展示数据内容。你可以通过表格底部的按钮在各页之间切换。

Data StudioData Studio

查看数据分布

在每一列的顶部,你可以看到表示数据分布的图表。这能帮助你快速了解类别是否平衡、数值数据的范围与分布、文本长度以及缺失值占比等信息。

按值筛选

在数值列的直方图上点击某个柱状,即可筛选出数值位于该范围的所有行。同样地,在分类列选择某个类别时,表格会只展示属于该类别的行。

Data Studio FilterData Studio Filter

在数据集中搜索

可在表格顶部的搜索栏输入关键字进行搜索,搜索不区分大小写,会匹配所有包含该词的行。对于 string 类型的列,即使值嵌套在字典或列表中,搜索也能找到。

在浏览器中运行 SQL 查询

你可以使用 SQL Console 在浏览器中对数据集运行 SQL 查询。该功能同样依赖我们的自动 Parquet 转换

SQL ConsoleSQL Console

更多信息请参阅 SQL Console 指南

分享特定行

点击任意行即可在地址栏看到对应的链接,复制该链接即可分享。例如 https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241 会在 MRPC 数据集、test 切分、241 行处打开 Data Studio。

Data Studio RowData Studio Row

大规模数据集

数据集查看器支持大规模数据集,但根据数据格式可能只显示前 5GB:

  • 对于 Parquet 数据集:查看器会展示完整数据集,但排序、筛选与搜索仅在前 5GB 的数据上启用。
  • 对于其他格式且 >5GB 的数据集(例如 WebDataset 或 JSON Lines):查看器仅展示前 5GB,排序、筛选与搜索也仅针对这部分数据。

此时查看器会显示提示信息,说明当前仅展示部分数据。这通常足以代表数据集全貌,如需更大样本,请告诉我们。

访问 Parquet 文件

为了驱动数据集查看器,所有数据集的前 5GB 都会自动转换为 Parquet 格式(除非原始数据已经是 Parquet)。在数据集查看器中(例如 GLUE),可以点击 “Auto-converted to Parquet” 获取 Parquet 文件。如何使用 Polars、Pandas、DuckDB 等库查询 Parquet 文件,请参考数据集查看器文档

提示

Parquet 是一种面向列的存储格式,非常适合查询与处理大型数据集。它在大数据处理、分析以及机器学习中被广泛使用。更多优势可参见官方文档

转换机器人

当你创建新数据集时,parquet-converter 机器人 会在转换完成后通知你。它会在仓库中开一个讨论,提供有关 Parquet 格式的详细信息与链接。

Parquet Converter ProfileParquet Converter Profile

编程方式访问

你也可以通过 Hub API 编程获取 Parquet 文件列表,例如 https://huggingface.co/api/datasets/nyu-mll/glue/parquet 会列出 nyu-mll/glue 数据集的 Parquet 文件。

此外,我们还提供数据集查看器 API,可直接调用,获取所有数据集内容、元数据与基础统计信息,该 API 同时驱动数据集查看器前端。

数据集预览

对于超大型数据集,页面会仅展示前 100 行作为预览,而不是全功能查看器。此限制仅适用于大于 5GB 且非原生 Parquet、或未自动转换为 Parquet 的数据集。

Dataset PreviewDataset Preview

在网页中嵌入数据集查看器

你可以通过 iframe 将数据集查看器嵌入自己的网页。使用的 URL 为 https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer,其中 <namespace> 是数据集的所有者,<dataset-name> 是数据集名称。还可以添加其他参数,如 subset、split、filter、search 或选中行等。

更多信息请参阅在网页中嵌入数据集查看器指南。

配置数据集查看器

为确保数据集查看器正常运行,需保证数据集采用支持的格式与结构。也可以通过 YAML 对数据集进行配置。

对于私有数据集,数据集查看器仅对 PRO 用户 以及 Team 或 Enterprise 组织 开放。

更多信息请参阅如何配置数据集查看器指南。