Argilla
Argilla 是一个协作工具,面向需要为项目构建高质量数据集的 AI 工程师和领域专家。
Argilla 可用于收集各种 AI 项目的人工反馈,如传统 NLP(文本分类、NER 等)、LLM(RAG、偏好调优等)或多模态模型(文本到图像等)。Argilla 的编程方法允许你构建用于持续评估和模型改进的工作流。Argilla 的目标是通过快速迭代正确的数据和模型,确保你的数据工作取得成效。
人们使用 Argilla 构建什么?
开源数据集和模型
Argilla 也为开源贡献了一些模型和数据集。
- Cleaned UltraFeedback 数据集用于微调 Notus 和 Notux 模型。原始 UltraFeedback 数据集使用 Argilla UI 过滤器进行整理,以查找并报告原始数据生成代码中的错误。基于此数据整理过程,Argilla 构建了此新版本的 UltraFeedback 数据集并微调了 Notus,在多个基准测试中超越了 Zephyr。
- distilabeled Intel Orca DPO 数据集用于微调改进的 OpenHermes 模型。该数据集通过结合 Argilla 中的人工整理和来自 distilabel 的 AI 反馈构建,产生了改进版本的 Intel Orca 数据集,并超越了在原始数据集上微调的模型。
示例用例
来自 the Red Cross、Loris.ai 和 Prolific 等公司的 AI 团队使用 Argilla 来提高 AI 项目的质量和效率。他们在我们的AI 社区聚会中分享了他们的经验。
- AI 向善:the Red Cross 演示展示了 Red Cross 领域专家和 AI 团队如何通过分类和重定向来自乌克兰危机难民的需求来简化 Red Cross 的支持流程。
- 客户支持:在 the Loris 聚会期间,他们展示了 AI 团队如何使用无监督和少样本对比学习来帮助他们快速验证并为大量多标签分类器获得标记样本。
- 研究: Prolific 的展示宣布了他们与我们平台的集成。他们使用它来主动在注释人员中分发数据收集项目。这使 Prolific 能够快速高效地为研究收集高质量数据。
先决条件
hf auth login
确保已安装 argilla>=2.0.0:
pip install -U argilla
最后,你需要部署 Argilla 服务器和 UI,这可以在 Hugging Face Hub 上轻松完成。
导入和导出数据集和记录
本指南展示如何将数据集导入和导出到 Hugging Face Hub。
在 Argilla 中,你可以导入/导出数据集的两个主要组件:
- 在
rg.Settings中定义的数据集完整配置。如果你想共享反馈任务或稍后在 Argilla 中恢复它,这很有用。 - 存储在数据集中的记录,包括
Metadata、Vectors、Suggestions和Responses。如果你想在 Argilla 之外使用数据集的记录,这很有用。