跳到主要内容

文件格式

Polars 在从 Hugging Face 读取数据时支持以下文件格式:

下面的示例只展示默认配置。若要查看所有可用参数,请通过上面的链接访问 API 参考文档。

Parquet

Parquet 是推荐的文件格式,因为它在文件内部携带带类型信息的 schema。这既避免了解析过程中的歧义,又能加快读取速度。要在 Polars 中读取 Parquet 文件,可以使用 read_parquet 函数:

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")

CSV

可以使用 read_csv 函数读取 CSV 文件:

pl.read_csv("hf://datasets/lhoestq/demo1/data/train.csv")

JSON

Polars 支持读取按行分隔的 JSON(也称为 json lines),可以使用 read_ndjson 函数:

pl.read_ndjson("hf://datasets/proj-persona/PersonaHub/persona.jsonl")