数据集下载统计

如何统计数据集的下载次数？

统计数据集的下载次数并非易事，因为单个数据集仓库可能包含多个文件，来自多个子集和切分（例如训练/验证/测试），有时单个切分中也有许多文件。为了解决这个问题并避免多次计算一个人的下载，我们将用户在 5 分钟窗口内下载的所有文件（基于其 IP 地址）视为一次数据集下载。当文件被下载时（通过 GET 或 HEAD 请求），此计数会在我们的服务器上自动进行，无需收集任何用户信息或进行额外调用。

2024 年 9 月之前

Hub 过去仅提供可通过 datasets 库加载的数据集的下载统计。为了确定下载次数，Hub 之前会统计 Python 中每次调用 load_dataset 的次数，不包括 Hugging Face 在 GitHub 上的 CI 工具。不会从用户发送任何信息，也不会为此进行额外调用。计数是在我们提供文件下载时在服务器端完成的。这意味着：

无论数据是直接存储在 Hub 仓库中，还是仓库有一个脚本从外部源加载数据，下载计数都是相同的。
如果用户使用 wget 或 Hub 的用户界面（UI）等工具手动下载数据，这些下载不包括在下载计数中。

如何统计数据集的下载次数？​

2024 年 9 月之前​

如何统计数据集的下载次数？

2024 年 9 月之前