Pandas DataFrame в список словарей

166

У меня есть следующий DataFrame:

клиент item1 item2 item3
1 помидор с яблочным молоком
2 воды апельсиновый картофель
3 сока чипсов манго

который я хочу перевести в список словарей в строке

rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
    {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
    {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Мохамад Ибрагим
источник
2
Добро пожаловать в стек переполнения! Я сделал отступ для вашего примера кода на 4 пробела, чтобы он правильно отображался - см. Справку по редактированию для получения дополнительной информации о форматировании.
ByteHamster

Ответы:

189

редактировать

Как упоминает Джон Галт в своем ответе , вы должны вместо этого использовать df.to_dict('records'). Это быстрее, чем переносить вручную.

In [20]: timeit df.T.to_dict().values()
1000 loops, best of 3: 395 µs per loop

In [21]: timeit df.to_dict('records')
10000 loops, best of 3: 53 µs per loop

Оригинальный ответ

Используйте df.T.to_dict().values(), как показано ниже:

In [1]: df
Out[1]:
   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

In [2]: df.T.to_dict().values()
Out[2]:
[{'customer': 1.0, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2.0, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3.0, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
ComputerFellow
источник
2
Каково было бы решение в случае кадра данных, содержащего для каждого клиента много строк?
Азиз
2
Когда я использую df.T.to_dict().values(), я
Hussain
При открытии CSV-файла в список диктов, я получаю в два раза больше скоростиunicodecsv.DictReader
Radtek
220

Использование df.to_dict('records')- дает вывод без необходимости транспонирования извне.

In [2]: df.to_dict('records')
Out[2]:
[{'customer': 1L, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2L, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3L, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Нуль
источник
2
Как бы я изменил его, чтобы включить значение индекса в каждую запись результирующего списка?
Габриэль Л. Оливейра
5
@ GabrielL.Oliveira вы можете сделать df.reset_index (). To_dict ('records')
Вей Ма
Является ли порядок столбцов зарезервированным в каждом случае, т. Е. Является ли n-ая запись в результирующем списке всегда также n-ным столбцом?
Клеб
@Cleb - это i.e. is the nth entry in the resulting list always also the nth column?n-й столбец или n-й ряд?
Науман Наим
14

Как продолжение ответа Джона Галта -

Для следующего DataFrame,

   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

Если вы хотите получить список словарей, включающих значения индекса, вы можете сделать что-то вроде:

df.to_dict('index')

Который выводит словарь словарей, где ключи родительского словаря являются индексными значениями. В этом конкретном случае

{0: {'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 1: {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 2: {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}}
Хоссейн Муктадир
источник
1

Если вы заинтересованы в выборе только одного столбца, это будет работать.

df[["item1"]].to_dict("records")

Нижеследующее НЕ будет работать и выдает ошибку TypeError: неподдерживаемый тип:. Я считаю, что это потому, что он пытается преобразовать серию в диктовку, а не в фрейм данных в диктовку.

df["item1"].to_dict("records")

У меня было требование выбрать только один столбец и преобразовать его в список диктовок с именем столбца в качестве ключа, и я застрял на нем немного, так что решил поделиться.

Джо Ривера
источник