跳到主要内容

ML 文档工具概览

2018 年模型卡片框架的开发受到自然语言处理数据声明(Bender & Friedman, 2018)和数据集数据表(Gebru 等人, 2018)的主要文档框架工作的启发。
自提出模型卡片以来,已经提出了许多其他工具来记录和评估机器学习开发周期的各个方面。这些工具,包括模型卡片和模型卡片之前提出的相关文档工作,可以根据其关注点(例如,工具关注 ML 系统生命周期的哪个部分?)和目标受众(例如,工具是为谁设计的?)进行情境化。
在下面的图 1-2 中,我们沿着这些维度总结了几种突出的文档工具,提供了每种工具的情境描述,并链接到示例。我们大致将文档工具分类为以下组:

  • 以数据为中心,包括专注于机器学习系统生命周期中使用的数据集的文档工具
  • 以模型和方法为中心,包括专注于机器学习模型和方法的文档工具;以及
  • 以系统为中心,包括专注于 ML 系统的文档工具,包括模型、方法、数据集、API 以及作为 ML 系统一部分相互交互的非 AI/ML 组件

这些分组并不相互排斥;它们确实包括 ML 系统生命周期的重叠方面。 例如,系统卡片专注于记录可能包括多个模型和数据集的 ML 系统,因此可能包括与以数据为中心或以模型为中心的文档工具重叠的内容。所描述的工具是 ML 系统生命周期文档工具的非详尽列表。一般来说,我们包括的工具是:

  • 专注于 ML 系统生命周期的某些(或多个)方面的文档
  • 包括旨在重复使用、采用和适应的模板的发布

ML 文档工具摘要

图 1

ML 系统生命周期阶段工具简要描述示例
数据数据表 (Gebru et al., 2018)"我们建议每个数据集都应附带一份数据表,记录其动机、创建、组成、预期用途、分发、维护和其他信息。"例如,参见 Ivy Lee 的仓库,其中包含示例
数据数据声明 (Bender & Friedman, 2018)(Bender et al., 2021)"数据声明是对数据集的描述,提供上下文,使开发者和用户能够更好地理解实验结果如何泛化、软件如何适当部署,以及基于该软件构建的系统可能反映哪些偏见。"参见 NLP 数据声明研讨会
数据数据集营养标签 (Holland et al., 2018)"数据集营养标签……是一个诊断框架,通过在 AI 模型开发之前提供数据集'成分'的精炼而全面的概览,降低标准化数据分析的门槛。"参见 数据营养标签
数据NLP 数据卡片 (McMillan-Major et al., 2021)"我们提出了两个在自然语言处理(NLP)中创建文档模板和指南的案例研究:Hugging Face (HF) 数据集中心1 以及生成及其评估和指标(GEM)基准。我们使用术语数据卡片来指代这两种情况下的数据集文档。参见 (McMillan-Major et al., 2021)
数据数据集开发生命周期文档框架 (Hutchinson et al., 2021)"我们引入了一个严格的数据集开发透明度框架,支持决策制定和问责制。该框架利用数据集开发的周期性、基础设施性和工程性,借鉴软件开发生命周期的最佳实践。"参见 (Hutchinson et al., 2021),附录 A 中的模板
数据数据卡片 (Pushkarna et al., 2021)"数据卡片是 ML 数据集各个方面基本事实的结构化摘要,由数据集生命周期中的利益相关者用于负责任的 AI 开发。这些摘要提供了塑造数据并因此塑造模型的过程和理由的解释。"参见 数据卡片手册 GitHub
数据CrowdWorkSheets (Díaz et al., 2022)"我们引入了一个新框架 CrowdWorkSheets,用于数据集开发者促进数据注释管道各个阶段关键决策点的透明文档:任务制定、注释者选择、平台和基础设施选择、数据集分析和评估,以及数据集发布和维护。"参见 (Díaz et al., 2022)
模型和方法模型卡片 Mitchell et al. (2018)"模型卡片是伴随训练好的机器学习模型的简短文档,在各种条件下提供基准评估……这些条件与预期应用领域相关。模型卡片还披露了模型预期使用的上下文、性能评估程序的详细信息以及其他相关信息。"参见 https://huggingface.co/models、[模型卡片指南](https://huggingface.co/docs/hub/model-card-guidebook) 和 模型卡片示例
模型和方法价值卡片 Shen et al. (2021)"我们提出了价值卡片,这是一个以审议为驱动的工具包,用于让计算机科学学生和实践者了解基于机器学习的决策系统的社会影响……价值卡片鼓励对不同 ML 性能指标及其潜在权衡的调查和辩论。"参见 Shen et al. (2021),第 3.3 节
模型和方法方法卡片 Adkins et al. (2022)"我们提出方法卡片来指导 ML 工程师完成模型开发过程……信息包括规范性和描述性元素,主要重点是确保 ML 工程师能够正确使用这些方法。"参见 Adkins et al. (2022),附录 A
模型和方法ML 模型的消费者标签 Seifert et al. (2019)"我们建议为训练和发布的 ML 模型发布消费者标签。这些标签主要针对机器学习外行人士,例如 ML 系统的操作者、决策的执行者以及决策对象本身"参见 Seifert et al. (2019)
系统事实表 Arnold et al. (2019)"事实表将包含 AI 服务所有相关属性的部分,例如预期用途、性能、安全性和安全性。性能将包括适当的准确性或风险度量以及时间信息。"参见 IBM 的 AI Factsheets 360Hind et al., (2020)
系统系统卡片 Procope et al. (2022)"系统卡片旨在通过向利益相关者提供 ML 系统不同组件的概览、这些组件如何交互,以及系统如何使用不同的数据和受保护信息,来提高 ML 系统的透明度。"参见 Meta 的 Instagram Feed 排名系统卡片
系统强化学习的奖励报告 Gilbert et al. (2022)"我们勾勒了一个记录已部署学习系统的框架,我们称之为奖励报告……我们将奖励报告概述为活文档,跟踪设计选择和假设的更新,这些选择和假设是特定自动化系统优化的基础。它们旨在跟踪系统部署产生的动态现象,而不仅仅是模型或数据的静态属性。"参见 https://rewardreports.github.io
系统Robustness Gym Goel et al. (2021)"我们识别了评估 NLP 系统的挑战,并以 Robustness Gym (RG) 的形式提出了解决方案,这是一个简单且可扩展的评估工具包,统一了 4 种标准评估范式:子群体、转换、评估集和对抗性攻击。"参见 https://github.com/robustness-gym/robustness-gym
系统ABOUT ML Raji and Yang, (2019)"ABOUT ML(机器学习生命周期理解和透明度的注释和基准测试)是由 PAI 领导的多年度、多利益相关者倡议。该倡议旨在汇集各种观点,以大规模开发、测试和实施机器学习系统文档实践。"参见 ABOUT ML 的资源库

以数据为中心的文档工具

几种提出的文档工具专注于 ML 系统生命周期中使用的数据集,包括训练、开发、验证、微调和评估机器学习模型,作为持续循环的一部分。这些工具通常专注于数据生命周期的许多方面(可能针对特定数据集、数据集组或更广泛的范围),包括数据如何组装、收集、注释以及应如何使用。

  • 扩展电子行业数据表的概念,Gebru 等人 (2018) 提出数据集数据表,以记录与数据集创建、潜在用途和相关关注点相关的详细信息。
  • Bender 和 Friedman (2018) 提出自然语言处理的数据声明。Bender、Friedman 和 McMillan-Major (2021) 更新了原始数据声明框架,并提供了资源,包括编写数据声明的指南以及在模式的第一版本和较新版本之间进行转换的指南2
  • Holland 等人 (2018) 提出数据营养标签,类似于食品的营养事实和隐私披露的营养标签,作为分析和决策数据集的工具。数据营养标签团队在 2020 年发布了标签的更新设计和界面(Chmielinski 等人, 2020))。
  • McMillan-Major 等人 (2021) 描述了NLP 数据卡片的开发过程和生成的模板,以 Hugging Face Hub3 上的数据卡片形式以及作为生成及其评估指标(GEM)环境4的 NLP 基准一部分的数据集的数据卡片形式。
  • Hutchinson 等人 (2021) 描述了全面数据集文档的需求,并借鉴软件开发实践,提供了记录数据集开发生命周期几个方面的模板(为了表 1 和表 2 的目的,我们将他们的框架称为数据集开发生命周期文档框架)。
  • Pushkarna 等人 (2021) 提出数据卡片作为数据卡片手册的一部分,这是一个以人为中心的文档工具,专注于工业和研究中使用的数据集。

以模型和方法为中心的文档工具

另一组文档工具可以被认为专注于机器学习模型和机器学习方法。这些包括:

  • Mitchell 等人 (2018) 提出模型卡片用于模型报告,以伴随训练好的 ML 模型并记录与评估、使用和其他问题相关的问题

  • Shen 等人 (2021) 提出价值卡片,用于向学生和实践者教授与 ML 模型相关的价值

  • Seifert 等人 (2019) 提出ML 模型的消费者标签,以帮助使用或受模型影响的非专家理解与模型相关的关键问题。

  • Adkins 等人 (2022) 分析了描述性文档工具的各个方面——他们认为包括模型卡片和数据表——并主张为 ML 工程师增加规范性工具。他们提出方法卡片,专注于 ML 方法,并主要针对模型开发者和审查者等技术利益相关者进行设计。

    • 他们通过以下陈述部分设想了模型卡片和方法卡片之间的关系:"我们提出的章节和提示…[在方法卡片模板中]专注于足以产生具有定义输入、输出和任务的适当 ML 模型的 ML 方法。这些的例子包括单次检测器等目标检测方法和生成式预训练 Transformer(GPT)等语言建模方法。可以为使用这些方法创建的模型创建模型卡片。"

    • 他们还指出:"虽然模型卡片和事实表主要关注记录现有模型,但方法卡片更多地关注在创建和训练这些模型时需要考虑的底层方法和算法选择。作为一个粗略的类比,如果模型卡片和事实表提供关于熟食的营养信息,方法卡片提供食谱。"

以系统为中心的文档工具

与其专注于特定模型、数据集或方法,以系统为中心的文档工具着眼于模型如何相互交互,与数据集、方法以及其他 ML 组件交互以形成 ML 系统。

  • Procope 等人 (2022) 提出系统卡片来记录和解释 AI 系统——可能包括多个 ML 模型、AI 工具和非 AI 技术——这些系统协同工作以完成任务。
  • Arnold 等人 (2019) 将消费品的符合性声明概念扩展到 AI 服务,提出事实表来记录"AI 服务"的各个方面,这些服务通常通过 API 访问,可能由多个不同的 ML 模型组成。Hind 等人 (2020) 分享了构建事实表的思考。
  • Gilbert 等人 (2022) 提出强化学习的奖励报告系统,认识到 ML 系统的动态性质以及文档工作需要纳入部署后性能的考虑,特别是对于强化学习系统。
  • Goel 等人 (2021) 开发了Robustness Gym,这是一个评估工具包,用于测试现实世界系统中深度神经网络的几个方面,允许跨评估范式进行比较。
  • 通过 ABOUT ML 项目Raji 和 Yang, 2019),AI 合作伙伴关系正在协调机器学习社区中利益相关者群体的努力,以开发全面、可扩展的 ML 系统文档工具。

模型卡片的演变

自 Mitchell 等人在 2018 年提出模型卡片以来,模型卡片已被各种组织采用和改编,包括开发和托管机器学习模型的主要科技公司和初创公司5、描述新技术的研究人员6,以及评估各种项目模型的政府利益相关者7。模型卡片也作为 AI 伦理教育工具包的一部分出现,许多组织和开发者已经创建了用于自动化或半自动化模型卡片创建的实现。附录 A 提供了由不同组织创建的各种类型 ML 模型的模型卡片示例集(包括大型语言模型的模型卡片)、模型卡片生成工具和模型卡片教育工具。

HUGGING FACE HUB 上的模型卡片

自 2018 年以来,用于托管和共享模型卡片的新平台和媒介也出现了。例如,特别与该项目相关的是,Hugging Face 在 Hugging Face Hub 上将模型卡片作为与 ML 模型关联的仓库中的 README 文件托管。因此,模型卡片成为 Hugging Face Hub 上模型用户的重要文档形式。作为我们模型卡片分析的一部分,我们为 Hugging Face Hub 上的几十个 ML 模型开发并提出了模型卡片,使用 Hub 的拉取请求(PR)和讨论功能来收集对模型卡片的反馈,验证模型卡片中包含的信息,并为 Hugging Face Hub 上的模型发布模型卡片。在编写本指南时,Hugging Face 在 Hugging Face Hub 上的所有模型都在 Hub 上有关联的模型卡片8

上传到 Hugging Face Hub 的大量模型(在编写时为 101,041 个模型)使我们能够探索 Hub 上模型卡片中的内容: 我们首先分析语言模型、模型卡片,以识别模式(例如重复的章节和子章节),目的是回答初始问题,例如:

  1. 这些模型中有多少有模型卡片?

  2. 下载量的百分之多少有关联的模型卡片?

通过对 Hub 上所有模型的分析,我们注意到大多数下载来自前 200 个模型。

继续关注大型语言模型,按下载量最多排序,并且只从有模型卡片的模型开始,我们注意到它们各自模型卡片中最常出现的章节。

虽然模型卡片中的一些标题可能因模型而异,但我们将每个模型卡片中每个章节的组件/主题分组,然后将它们映射到最常出现的章节标题(主要在前 200 个下载的模型中找到,并在 Bloom 模型卡片的帮助/指导下)


请这样引用:
Ozoani, Ezi and Gerchick, Marissa and Mitchell, Margaret. Model Card Guidebook. Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook

Footnotes

  1. For each tool, descriptions are excerpted from the linked paper listed in the second column.

  2. See https://techpolicylab.uw.edu/data-statements/ .

  3. See https://techpolicylab.uw.edu/data-statements/ .

  4. See https://techpolicylab.uw.edu/data-statements/ .

  5. See, e.g., the Hugging Face Hub, Google Cloud’s Model Cards https://modelcards.withgoogle.com/about .

  6. See Appendix A.

  7. See GSA / US Census Bureau Collaboration on Model Card Generator.

  8. By “Hugging Face models,” we mean models shared by Hugging Face, not another organisation, on the Hub. Formally, these are models without a ‘/’ in their model ID.