ML 文档工具概览
2018 年模型卡片框架的开发受到自然语言处理数据声明(Bender & Friedman, 2018)和数据集数据表(Gebru 等人, 2018)的主要文档框架工作的启发。
自提出模型卡片以来,已经提出了许多其他工具来记录和评估机器学习开发周期的各个方面。这些工具,包括模型卡片和模型卡片之前提出的相关文档工作,可以根据其关注点(例如,工具关注 ML 系统生命周期的哪个部分?)和目标受众(例如,工具是为谁设计的?)进行情境化。
在下面的图 1-2 中,我们沿着这些维度总结了几种突出的文档工具,提供了每种工具的情境描述,并链接到示例。我们大致将文档工具分类为以下组:
- 以数据为中心,包括专注于机器学习系统生命周期中使用的数据集的文档工具
- 以模型和方法为中心,包括专注于机器学习模型和方法的文档工具;以及
- 以系统为中心,包括专注于 ML 系统的文档工具,包括模型、方法、数据集、API 以及作为 ML 系统一部分相互交互的非 AI/ML 组件
这些分组并不相互排斥;它们确实包括 ML 系统生命周期的重叠方面。 例如,系统卡片专注于记录可能包括多个模型和数据集的 ML 系统,因此可能包括与以数据为中心或以模型为中心的文档工具重叠的内容。所描述的工具是 ML 系统生命周期文档工具的非详尽列表。一般来说,我们包括的工具是:
- 专注于 ML 系统生命周期的某些(或多个)方面的文档
- 包括旨在重复使用、采用和适应的模板的发布