跳到主要内容

带注释的模型卡片模板

模板

modelcard_template.md 文件

说明

完整填写模型卡片需要来自几个不同角色的输入。(一个人可能拥有多个角色。)我们将这些角色称为开发者(编写代码并运行训练)、社会技术专家(擅长分析技术与社会的长期互动,包括律师、伦理学家、社会学家或权利倡导者)和项目组织者(了解模型的整体范围和影响,可以大致填写卡片的每个部分,并作为模型卡片更新的联系人)。

以下以斜体提供说明。

模板变量名称以 等宽字体 显示。


模型名称

章节概述: 提供模型名称和 1-2 句话的模型摘要。

model_id

model_summary

目录

章节概述: 提供指向每个章节的链接,使人们能够轻松跳转/在其他位置使用该文件(保留目录/打印内容等)。

模型详情

章节概述: 本章节提供关于模型是什么、其当前状态以及来源的基本信息。对于任何想要引用模型的人都应该有用。

模型描述

model_description

提供关于模型的基本详细信息。这包括架构、版本、是否在论文中介绍、是否有原始实现可用,以及创建者。任何版权都应在此处注明。关于训练过程、参数和重要免责声明的一般信息也可以在本节中提及。

  • 开发人员: developers

列出(理想情况下链接到)构建模型的人员。

  • 资助方: funded_by

列出(理想情况下链接到)在财务、计算或其他方面支持或启用此模型的资金来源。

  • 共享者 [可选]: shared_by

列出(理想情况下链接到)使模型在线可用的人员/组织。

  • 模型类型: model_type

你可以将"类型"命名为:

1. 监督/学习方法

2. 机器学习类型

3. 模态

  • 语言 [NLP]:language

当系统使用或处理自然(人类)语言时使用此字段。

  • 许可证: license

正在使用的许可证的名称和链接。

  • 从模型微调 [可选]: base_model

如果此模型有另一个模型作为其基础,请在此处链接到该模型。

模型来源 [可选]

  • 仓库: repo
  • 论文 [可选]: paper
  • 演示 [可选]: demo

提供用户可以直接查看模型及其详细信息的来源。其他类型的资源——训练日志、经验教训等——属于更多信息部分。如果你在本节中包含一项内容,请链接到仓库。

用途

章节概述: 本章节解决关于模型如何在不同的应用环境中使用的问题,讨论模型的可预见用户(包括受模型影响的人),并描述被视为超出范围或误用模型的使用。请注意,本章节不旨在包含许可证使用详情。对于许可证使用详情,请直接链接到许可证。

直接使用

direct_use

解释如何在不进行微调、后处理或插入管道的情况下使用模型。建议提供示例代码片段。

下游使用 [可选]

downstream_use

解释当为任务微调此模型或将其插入更大的生态系统或应用程序时如何使用此模型。建议提供示例代码片段。

超出范围的使用

out_of_scope_use

列出模型可能被误用的方式(以不会起作用的方式使用),并说明用户不应该对模型做什么。

偏见、风险和局限性

章节概述: 本章节识别可预见的危害、误解以及技术和社会技术局限性。它还提供关于警告和潜在缓解措施的信息。偏见、风险和局限性有时可能不可分割/指代相同的问题。一般来说,偏见和风险是社会技术的,而局限性是技术的:

  • 偏见是对某些子群体的刻板印象或不成比例的性能(偏差)。
  • 风险是模型可能引起的社会相关问题。
  • 局限性是可能遵循列出的建议解决的失败模式。

bias_risks_limitations

来自此模型的已知或可预见的问题是什么?

建议

bias_recommendations

关于可预见问题的建议是什么?这可能包括从"下采样你的图像"到过滤显式内容的所有内容。

训练详情

章节概述: 本章节提供描述和复制训练的信息,包括训练数据、训练元素的速度和大小,以及训练的环境影响。这也与技术规格密切相关,当内容与训练过程相关时,应链接到该章节。对于想要了解更多关于模型输入和训练足迹的人来说很有用。 对于任何想要了解模型学习基础知识的人来说都很有用。

训练数据

training_data

写 1-2 句话说明训练数据是什么。理想情况下,这应该链接到数据集卡片以获取更多信息。与数据预处理或额外过滤相关的文档链接也可以放在这里以及更多信息中。

训练过程 [可选]

预处理

preprocessing

详细说明分词、调整大小/重写(取决于模态)等。

速度、大小、时间

speeds_sizes_times

详细说明吞吐量、开始/结束时间、检查点大小等。

评估

章节概述: 本章节描述评估协议、评估中测量的内容,并提供结果。理想情况下,评估至少有两个部分,一个部分着眼于一般性能的定量测量(测试数据、因素和指标),例如可以通过基准测试完成;另一个部分着眼于与特定社会安全问题相关的性能(社会影响评估),例如可以通过红队测试完成。你还可以在模型卡片元数据中以结构化方式指定模型的评估结果。结果由 Hub 解析并显示在模型页面上的小部件中。参见 https://huggingface.co/docs/hub/model-cards#evaluation-results。

测试数据、因素和指标

理想情况下,评估应针对不同因素(如任务、领域和人口子群体)进行分解;并使用对可预见的使用环境最有意义的指标进行计算。不同子群体之间的平等评估性能被称为这些子群体之间的"公平";目标公平指标应根据哪些错误在模型使用方面更可能有问题来决定。但是,本节最常用于报告不同任务基准上的聚合评估性能。

测试数据

testing_data

描述测试数据或链接到其数据集卡片。

因素

testing_factors

影响模型行为的可预见特征是什么?理想情况下,评估应跨这些因素进行分解,以发现性能差异。

指标

testing_metrics

将使用哪些指标进行评估?

结果

results

结果应基于上面定义的因素和指标。

摘要

results_summary

结果说明了什么?这可以作为面向一般受众的摘要。

社会影响评估 [可选]

使用此自由文本部分解释如何评估此模型的社会危害风险,例如儿童安全、NCII、隐私和暴力。这可能采取以下问题的答案形式:

  • 这个模型对儿童使用安全吗?为什么安全或不安全?
  • 是否已测试此模型以评估与非自愿亲密图像(包括 CSEM)相关的风险?
  • 是否已测试此模型以评估与暴力活动或暴力描述相关的风险?结果是什么?

也可以提供每个问题的定量数字。

模型检查 [可选]

章节概述: 这是一个实验性章节,一些开发者开始添加,可解释性/可解释性工作可以放在这里。

model_examination

环境影响

章节概述: 总结计算环境影响(如电力使用和碳排放)所需的信息。

  • 硬件类型: hardware_type
  • 使用小时数: hours_used
  • 云提供商: cloud_provider
  • 计算区域: cloud_region
  • 碳排放量: co2_emitted

可以使用 Lacoste 等人 (2019) 中提出的机器学习影响计算器来估算碳排放。

技术规格 [可选]

章节概述: 本章节包括关于模型目标和架构以及计算基础设施的详细信息。对于对模型开发感兴趣的人很有用。编写本章节通常需要模型开发者直接参与。

模型架构和目标

model_specs

计算基础设施

compute_infrastructure

硬件

hardware_requirements

最低硬件要求是什么,例如处理、存储和内存要求?

软件

software

引用 [可选]

章节概述: 开发者对此模型的推荐引用。这通常是一篇论文。

BibTeX

citation_bibtex

APA

citation_apa

术语表 [可选]

章节概述: 本章节定义常用术语以及如何计算指标。

glossary

明确定义术语,以便跨受众访问。

更多信息 [可选]

章节概述: 本章节提供指向数据集创建、技术规格、经验教训和初始结果的写作链接。

more_information

模型卡片作者 [可选]

章节概述: 本章节列出创建模型卡片的人员,为构建模型卡片所涉及的详细工作提供认可和责任。

model_card_authors

模型卡片联系人

章节概述: 为对模型卡片有更新、建议或问题的人提供联系模型卡片作者的方式

model_card_contact

如何开始使用模型

章节概述: 提供代码片段以显示如何使用模型。

get_started_code


请引用为: Ozoani, Ezi and Gerchick, Marissa and Mitchell, Margaret. Model Card Guidebook. Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook