У меня есть CSV-файл размером 70 ГБ. Я хочу загрузить DF и подсчитать количество строк в ленивом режиме. Как лучше всего это сделать?
Насколько я могу судить, согласно документации, в ленивом режиме нет такой функции, как форма. Я нашел этот ответ, который предлагает решение, не основанное на Polars, но мне интересно, можно ли сделать это и в Polars.
🤔 А знаете ли вы, что...
Python используется в научных вычислениях и обработке изображений с использованием библиотеки OpenCV.
Чтобы получить количество строк, используя поляры.
Сначала загрузите его в ленивый фрейм...
lzdf=pl.scan_csv("mybigfile.csv")
Затем подсчитайте строки и верните результат
lzdf.select(pl.count()).collect()
Если в результате вам просто нужен скаляр python, а не таблица, просто подмножьте его.
lzdf.select(pl.count()).collect()[0,0]
Мне любопытно, могут ли поляры считать строки быстрее, чем общий метод Python, учитывая, что вы почти наверняка просто привязаны к вводу-выводу.