Python Polars: как получить количество строк в DataFrame?

У меня есть CSV-файл размером 70 ГБ. Я хочу загрузить DF и подсчитать количество строк в ленивом режиме. Как лучше всего это сделать?

Насколько я могу судить, согласно документации, в ленивом режиме нет такой функции, как форма. Я нашел этот ответ, который предлагает решение, не основанное на Polars, но мне интересно, можно ли сделать это и в Polars.

🤔 А знаете ли вы, что...
Python используется в научных вычислениях и обработке изображений с использованием библиотеки OpenCV.


67
1

Ответ:

Решено

Чтобы получить количество строк, используя поляры.

Сначала загрузите его в ленивый фрейм...

lzdf=pl.scan_csv("mybigfile.csv")

Затем подсчитайте строки и верните результат

lzdf.select(pl.count()).collect()

Если в результате вам просто нужен скаляр python, а не таблица, просто подмножьте его.

lzdf.select(pl.count()).collect()[0,0]

Мне любопытно, могут ли поляры считать строки быстрее, чем общий метод Python, учитывая, что вы почти наверняка просто привязаны к вводу-выводу.