库
Datasets Hub 支持开源生态中的多种库。借助 huggingface_hub Python 库,可以轻松地在 Hub 上分享数据集。我们很高兴欢迎这些推动机器学习前进的开源库加入 Hub。
下表总结了已支持的库及其集成程度。
| 库 | 描述 | 从 Hub 下载 | 推送到 Hub |
|---|---|---|---|
| Argilla | AI 工程师与领域专家协作的高质量数据工具。 | ✅ | ✅ |
| Daft | 面向大规模、多模态数据处理的 Python 原生数据引擎。 | ✅ | ✅ |
| Dask | 扩展 Python 与 PyData 生态的并行与分布式计算库。 | ✅ | ✅ |
| Datasets | 🤗 Datasets 是用于访问与分享音频、计算机视觉、自然语言处理数据集的库。 | ✅ | ✅ |
| Distilabel | 合成数据生成与 AI 反馈框架。 | ✅ | ✅ |
| DuckDB | 内嵌式 SQL OLAP 数据库管理系统。 | ✅ | ✅ |
| Embedding Atlas | 大规模嵌入的交互式可视化与探索工具。 | ✅ | ❌ |
| fenic | 类 PySpark 的 DataFrame 框架,用于构建生产级 AI 与 Agent 应用。 | ✅ | ❌ |
| FiftyOne | 用于图像、视频、3D 数据整理与可视化的库。 | ✅ | ✅ |
| Pandas | Python 数据分析工具包。 | ✅ | ✅ |
| Polars | 基于 OLAP 查询引擎的 DataFrame 库。 | ✅ | ✅ |
| PyArrow | Apache Arrow 提供列式格式与高效内存分析工具。 | ✅ | ✅ |
| Spark | 分布式环境中的实时大规模数据处理工具。 | ✅ | ✅ |
| WebDataset | 用于编写大规模数据集 I/O 管线的库。 | ✅ | ❌ |
将数据工具与 Hub 集成
本指南面向希望与 Hugging Face Hub 集成的数据工具与库的开发者/维护者。无论你在构建数据处理库、分析工具,还是任何需要与数据集交互的软件,本指南都将帮助你实现 Hub 集成。
指南涵盖以下内容:
- 如何在库/工具中加载 Hub 上的数据
- 如何在库/工具中将数据上传到 Hub