DataFrame do Pandas para lista de dicionários

165

Eu tenho o seguinte DataFrame:

cliente item1 item2 item3
1 tomate com leite e maçã
2 água de batata laranja
3 chips de suco de manga

que eu quero traduzir para lista de dicionários por linha

rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
    {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
    {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Mohamad Ibrahim
fonte
2
Bem-vindo ao Stack Overflow! Recuei seu exemplo de código em 4 espaços para que ele seja renderizado corretamente - consulte a ajuda da edição para obter mais informações sobre formatação.
ByteHamster 23/04

Respostas:

189

Editar

Como John Galt menciona em sua resposta , você provavelmente deveria usar df.to_dict('records'). É mais rápido do que transpor manualmente.

In [20]: timeit df.T.to_dict().values()
1000 loops, best of 3: 395 µs per loop

In [21]: timeit df.to_dict('records')
10000 loops, best of 3: 53 µs per loop

Resposta original

Use df.T.to_dict().values(), como abaixo:

In [1]: df
Out[1]:
   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

In [2]: df.T.to_dict().values()
Out[2]:
[{'customer': 1.0, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2.0, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3.0, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
ComputerFellow
fonte
2
Qual seria a solução no caso de um quadro de dados contendo para cada Cliente muitas linhas?
Aziz
2
Quando eu uso df.T.to_dict().values(), eu solto a ordem de classificação também
Hussain
Ao abrir um arquivo CSV à lista de dicts, eu estou recebendo o dobro da velocidade comunicodecsv.DictReader
radtek
219

Use df.to_dict('records')- fornece a saída sem precisar transpor para o exterior.

In [2]: df.to_dict('records')
Out[2]:
[{'customer': 1L, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2L, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3L, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Zero
fonte
2
Como eu o alteraria para incluir o valor do índice em cada entrada da lista resultante?
Gabriel L. Oliveira
5
@ GabrielL.Oliveira você pode fazer df.reset_index (). To_dict ('records')
Wei Ma
A ordem das colunas é reservada em cada caso, ou seja, a enésima entrada na lista resultante sempre é também a enésima coluna?
Cleb 23/05
@ Cleb são a i.e. is the nth entry in the resulting list always also the nth column?enésima coluna ou a enésima linha?
Nauman Naeem
14

Como uma extensão da resposta de John Galt -

Para o seguinte DataFrame,

   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

Se você deseja obter uma lista de dicionários, incluindo os valores do índice, pode fazer algo como,

df.to_dict('index')

Que gera um dicionário de dicionários em que as chaves do dicionário pai são valores de índice. Nesse caso em particular,

{0: {'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 1: {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 2: {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}}
Hossain Muctadir
fonte
1

Se você estiver interessado em selecionar apenas uma coluna, isso funcionará.

df[["item1"]].to_dict("records")

O abaixo NÃO funcionará e produz um TypeError: tipo não suportado:. Eu acredito que isso ocorre porque ele está tentando converter uma série em um ditado e não um Data Frame em um ditado.

df["item1"].to_dict("records")

Eu tinha o requisito de selecionar apenas uma coluna e convertê-la em uma lista de dictos com o nome da coluna como a chave e fiquei presa a isso por um tempo, então achei que eu compartilharia.

Joe Rivera
fonte