数据集下载统计
如何统计数据集的下载次数?
统计数据集的下载次数并非易事,因为单个数据 集仓库可能包含多个文件,来自多个子集和切分(例如训练/验证/测试),有时单个切分中也有许多文件。为了解决这个问题并避免多次计算一个人的下载,我们将用户在 5 分钟窗口内下载的所有文件(基于其 IP 地址)视为一次数据集下载。当文件被下载时(通过 GET 或 HEAD 请求),此计数会在我们的服务器上自动进行,无需收集任何用户信息或进行额外调用。
2024 年 9 月之前
Hub 过去仅提供可通过 datasets 库加载的数据集的下载统计。为了确定下载次数,Hub 之前会统计 Python 中每次调用 load_dataset 的次数,不包括 Hugging Face 在 GitHub 上的 CI 工具。不会从用户发送任何信息,也不会为此进行额外调用。计数是在我们提供文件下载时在服务器端完成的。这意味着:
- 无论数据是直接存储在 Hub 仓库中,还是仓库有一个脚本从外部源加载数据,下载计数都是相同的。
- 如果用户使用
wget或 Hub 的用户界面(UI)等工具手动下载数据,这些下载不包括在下载计数中。