Не могу обработать набор данных json из-за отсутствия ,?

У меня есть набор данных json, который я хотел бы использовать для проекта мл, после каждой записи отсутствует запятая (,), поэтому я не могу обработать его с помощью pandas. Что я могу сделать, чтобы исправить формат файла? Ссылка на набор данных есть [https://www.kaggle.com/datasets/rmisra/news-category-dataset][1]


22
1

Ответ:

Решено

Каждая строка файла своя, json. Вы можете поместить их в список, чтобы сформировать df:

import json
import pandas as pd

with open('News_Category_Dataset_v2.json', 'r') as f:
    df = pd.DataFrame([json.loads(l) for l in f.readlines()])

print(df)

Выход:

             category  ...        date
0               CRIME  ...  2018-05-26
1       ENTERTAINMENT  ...  2018-05-26
2       ENTERTAINMENT  ...  2018-05-26
3       ENTERTAINMENT  ...  2018-05-26
4       ENTERTAINMENT  ...  2018-05-26
...               ...  ...         ...
200848           TECH  ...  2012-01-28
200849         SPORTS  ...  2012-01-28
200850         SPORTS  ...  2012-01-28
200851         SPORTS  ...  2012-01-28
200852         SPORTS  ...  2012-01-28

[200853 rows x 6 columns]