文件格式
Polars 在从 Hugging Face 读取数据时支持以下文件格式:
下面的示例只展示默认配置。若要查看所有可用参数,请通过上面的链接访问 API 参考文档。
Parquet
Parquet 是推荐的文件格式,因为它在文件内部携带带类型信息的 schema。这既避免了解析过程中的歧义,又能加快读取速度。要在 Polars 中读取 Parquet 文件,可以使用 read_parquet 函数:
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")
CSV
可以使用 read_csv 函数读取 CSV 文件:
pl.read_csv("hf://datasets/lhoestq/demo1/data/train.csv")
JSON
Polars 支持读取按行分 隔的 JSON(也称为 json lines),可以使用 read_ndjson 函数:
pl.read_ndjson("hf://datasets/proj-persona/PersonaHub/persona.jsonl")