ML 文档工具概览
2018 年模型卡片框架的开发受到自然语言处理数据声明(Bender & Friedman, 2018)和数据集数据表(Gebru 等人, 2018)的主要文档框架工作的启发。
自提出模型卡片以来,已经提出了许多其他工具来记录和评估机器学习开发周期的各个方面。这些工具 ,包括模型卡片和模型卡片之前提出的相关文档工作,可以根据其关注点(例如,工具关注 ML 系统生命周期的哪个部分?)和目标受众(例如,工具是为谁设计的?)进行情境化。
在下面的图 1-2 中,我们沿着这些维度总结了几种突出的文档工具,提供了每种工具的情境描述,并链接到示例。我们大致将文档工具分类为以下组:
- 以数据为中心,包括专注于机器学习系统生命周期中使用的数据集的文档工具
- 以模型和方法为中心,包括专注于机器学习模型和方法的文档工具;以及
- 以系统为中心,包括专注于 ML 系统的文档工具,包括模型、方法、数据集、API 以及作为 ML 系统一部分相互交互的非 AI/ML 组件
这些分组并不相互排斥;它们确实包括 ML 系统生命周期的重叠方面。 例如,系统卡片专注于记录可能包括多个模型和数据集的 ML 系统,因此可能包括与以数据为中心或以模型为中心的文档工具重叠的内容。所描述的工具是 ML 系统生命周期文档工具的非详尽列表。一般来说,我们包括的工具是:
- 专注于 ML 系统生命周期的某些(或多个)方面的文档
- 包括旨在重复使用、采用和适应的模板的发布
ML 文档工具摘要
图 1
| ML 系统生命周期阶段 | 工具 | 简要描述 | 示例 |
|---|---|---|---|
| 数据 | 数据表 (Gebru et al., 2018) | "我们建议每个数据集都应附带一份数据表,记录其动机、创建、组成、预期用途、分发、维护和其他信息。" | 例如,参见 Ivy Lee 的仓库,其中包含示例 |
| 数据 | 数据声明 (Bender & Friedman, 2018)(Bender et al., 2021) | "数据声明是对数据集的描述,提供上下文,使开发者和用户能够更好地理解实验结果如何泛化、软件如何适当部署,以及基于该软件构建的系统可能反映哪些偏见。" | 参见 NLP 数据声明研讨会 |
| 数据 | 数据集营养标签 (Holland et al., 2018) | "数据集营养标签……是一个诊断框架,通过在 AI 模型开发之前提供数据集'成分'的精炼而全面的概览,降低标准化数据分析的门槛。" | 参见 数据营养标签 |
| 数据 | NLP 数据卡片 (McMillan-Major et al., 2021) | "我们提出了两个在自然语言处理(NLP)中创建文档模板和指南的案例研究:Hugging Face (HF) 数据集中心1 以及生成及其评估和指标(GEM)基准。我们使用术语数据卡片来指代这两种情况下的数据集文档。 | 参见 (McMillan-Major et al., 2021) |
| 数据 | 数据集开发生命周期文档框架 (Hutchinson et al., 2021) | "我们引入了一个严格的数据集开发透明度框架,支持决策制定和问责制。该框架利用数据集开发的周期性、基础设施性和工程性,借鉴软件开发生命周期的最佳实践。" | 参见 (Hutchinson et al., 2021),附录 A 中的模板 |
| 数据 | 数据卡片 (Pushkarna et al., 2021) | "数据卡片是 ML 数据集各个方面基本事实的结构化摘要,由数据集生命周期中的利益相关者用于负责任的 AI 开发。这些摘要提供了塑造数据并因此塑造模型的过程和理由的解释。" | 参见 数据卡片手册 GitHub |
| 数据 | CrowdWorkSheets (Díaz et al., 2022) | "我们引入了一个新框架 CrowdWorkSheets,用于数据集开发者促进数据注释管道各个阶段关键决策点的透明文档:任务制定、注释者选择、平台和基础设施选择、数据集分析和评估,以及数据集发布和维护。" | 参见 (Díaz et al., 2022) |
| 模型和方法 | 模型卡片 Mitchell et al. (2018) | "模型卡片是伴随训练好的机器学习模型的简短文档,在各种条件下提供基准评估……这些条件与预期应用领域相关。模型卡片还披露了模型预期使用的上下文、性能评估程序的详细信息以及其他相关信息。" | 参见 https://huggingface.co/models、[模型卡片指南](https://huggingface.co/docs/hub/model-card-guidebook) 和 模型卡片示例 |
| 模型和方法 | 价值卡片 Shen et al. (2021) | "我们提出了价值卡片,这是一个以审议为驱动的工具包,用于让计算机科学学生和实践者了解基于机器学习的决策系统的社会影响……价值卡片鼓励对不同 ML 性能指标及其潜在权衡的调查和辩论。" | 参见 Shen et al. (2021),第 3.3 节 |
| 模型和方法 | 方法卡片 Adkins et al. (2022) | "我们提出方法卡片来指导 ML 工程师完成模型开发过程……信息包括规范性和描述性元素,主要重点是确保 ML 工程师能够正确使用这些方法。" | 参见 Adkins et al. (2022),附录 A |
| 模型和方法 | ML 模型的消费者标签 Seifert et al. (2019) | "我们建议为训练和发布的 ML 模型发布消费者标签。这些标签主要针对机器学习外行人士,例如 ML 系统的操作者、决策的执行者以及决策对象本身" | 参见 Seifert et al. (2019) |
| 系统 | 事实表 Arnold et al. (2019) | "事实表将包含 AI 服务所有相关属性的部分,例如预期用途、性能、安全性和安全性。性能将包括适当的准确性或风险度量以及时间信息。" | 参见 IBM 的 AI Factsheets 360 和 Hind et al., (2020) |
| 系统 | 系统卡片 Procope et al. (2022) | "系统卡片旨在通过向利益相关者提供 ML 系统不同组件的概览、这些组件如何交互,以及系统如何使用不同的数据和受保护信息,来提高 ML 系统的透明度。" | 参见 Meta 的 Instagram Feed 排名系统卡片 |
| 系统 | 强化学习的奖励报告 Gilbert et al. (2022) | "我们勾勒了一个记录已部署学习系统的框架,我们称之为奖励报告……我们将奖励报告概述为活文档,跟踪设计选择和假设的更新,这些选择和假设是特定自动化系统优化的基础。它们旨在跟踪系统部署产生的动态现象,而不仅仅是模型或数据的静态属性。" | 参见 https://rewardreports.github.io |
| 系统 | Robustness Gym Goel et al. (2021) | "我们识别了评估 NLP 系统的挑战,并以 Robustness Gym (RG) 的形式提出了解决方案,这是一个简单且可扩展的评估工具包,统一了 4 种标准评估范式:子群体、转换、评估集和对抗性攻击。" | 参见 https://github.com/robustness-gym/robustness-gym |
| 系统 | ABOUT ML Raji and Yang, (2019) | "ABOUT ML(机器学习生命周期理解和透明度的注释和基准测试)是由 PAI 领导的多年度、多利益相关者倡议。该倡议旨在汇集各种观点,以大规模开发、测试和实施机器学习系统文档实践。" | 参见 ABOUT ML 的资源库 |
以数据为中心的文档工具
几种提出的文档工具专注于 ML 系统生命周期中使用的数据集,包括训练、开发、验证、微调和评估机器学习模型,作为持续循环的一部分。这些工具通常专注于数据生命周期的许多方面(可能针对特定数据集、数据集组或更广泛的范围),包括数据如何组装、收集、注释以及应如何使用。
- 扩展电子行业数据表的概念,Gebru 等人 (2018) 提出数据集数据表,以记录与数据集创建、潜在用途和相关关注点相关的详细信息。
- Bender 和 Friedman (2018) 提出自然语言处理的数据声明。Bender、Friedman 和 McMillan-Major (2021) 更新了原始数据声明框架,并提供了资源,包括编写数据声明的指南以及在模式的第一版本和较新版本之间进行转换的指南2。
- Holland 等人 (2018) 提出数据营养标签,类似于食品的营养事实和隐私披露的营养标签,作为分析和决策数据集的工具。数据营养标签团队在 2020 年发布了标签的更新设计和界面(Chmielinski 等人, 2020))。
- McMillan-Major 等人 (2021) 描述了NLP 数据卡片的开发过程和生成的模板,以 Hugging Face Hub3 上的数据卡片形式以及作为生成及其评估指标(GEM)环境4的 NLP 基准一部分的数据集的数据卡片形式。
- Hutchinson 等人 (2021) 描述了全面数据集文档的需求,并借鉴软件开发实践,提供了记录数据集开发生命周期几个方面的模板(为了表 1 和表 2 的目的,我们将他们的框架称为数据集开发生命周期文档框架)。
- Pushkarna 等人 (2021) 提出数据卡片作为数据卡片手册