Criação de dataframe de um dicionário onde as entradas têm comprimentos diferentes

114

Digamos que eu tenha um dicionário com 10 pares de valores-chave. Cada entrada contém uma matriz numpy. No entanto, o comprimento da matriz não é o mesmo para todos eles.

Como posso criar um dataframe onde cada coluna contém uma entrada diferente?

Quando tento:

pd.DataFrame(my_dict)

Eu recebo:

ValueError: arrays must all be the same length

Alguma maneira de superar isso? Estou feliz por ter Pandas usando NaNpara preencher essas colunas para as entradas mais curtas.

Josh
fonte

Respostas:

132

Em Python 3.x:

In [6]: d = dict( A = np.array([1,2]), B = np.array([1,2,3,4]) )

In [7]: pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in d.items() ]))
Out[7]: 
    A  B
0   1  1
1   2  2
2 NaN  3
3 NaN  4

Em Python 2.x:

substitua d.items()por d.iteritems().

Jeff
fonte
Eu estava trabalhando neste mesmo problema recentemente, e isso é melhor do que o que eu tinha! Uma coisa a ser observada, o preenchimento com NaNs forçará a série dtype a float64, o que pode ser problemático se você precisar fazer matemática inteira.
mattexx
você sempre pode fazer uma pergunta - muitas pessoas respondem
Jeff,
você precisa fornecer MVCE como os comentários sugerem
Jeff,
3
@germ você pode querer importar a Série primeiro ou fazer algo como pd.Series(...) (supondo import pandas as pdna seção de importação)
Nima Mousavi
5
Versão mais compacta desta resposta:pd.DataFrame({k: pd.Series(l) for k, l in d.items()})
user553965
82

Esta é uma maneira simples de fazer isso:

In[20]: my_dict = dict( A = np.array([1,2]), B = np.array([1,2,3,4]) )
In[21]: df = pd.DataFrame.from_dict(my_dict, orient='index')
In[22]: df
Out[22]: 
   0  1   2   3
A  1  2 NaN NaN
B  1  2   3   4
In[23]: df.transpose()
Out[23]: 
    A  B
0   1  1
1   2  2
2 NaN  3
3 NaN  4
dezzan
fonte
Existem outras opções para 'indexar'?
sAguinaga de
@sAguinaga Sim:, columnsmas este já é o padrão. Veja a documentação do pandas - pandas.DataFrame.from_dict
Murmel
15

Uma maneira de organizar sua sintaxe, mas ainda fazer essencialmente a mesma coisa que essas outras respostas, está abaixo:

>>> mydict = {'one': [1,2,3], 2: [4,5,6,7], 3: 8}

>>> dict_df = pd.DataFrame({ key:pd.Series(value) for key, value in mydict.items() })

>>> dict_df

   one  2    3
0  1.0  4  8.0
1  2.0  5  NaN
2  3.0  6  NaN
3  NaN  7  NaN

Uma sintaxe semelhante também existe para listas:

>>> mylist = [ [1,2,3], [4,5], 6 ]

>>> list_df = pd.DataFrame([ pd.Series(value) for value in mylist ])

>>> list_df

     0    1    2
0  1.0  2.0  3.0
1  4.0  5.0  NaN
2  6.0  NaN  NaN

Outra sintaxe para listas é:

>>> mylist = [ [1,2,3], [4,5], 6 ]

>>> list_df = pd.DataFrame({ i:pd.Series(value) for i, value in enumerate(mylist) })

>>> list_df

   0    1    2
0  1  4.0  6.0
1  2  5.0  NaN
2  3  NaN  NaN

Além disso, você pode ter que transpor o resultado e / ou alterar os tipos de dados da coluna (float, inteiro, etc).

OrangeSherbet
fonte
3

Embora isso não responda diretamente à pergunta do OP. Descobri que esta é uma excelente solução para o meu caso quando tinha matrizes desiguais e gostaria de compartilhar:

da documentação do pandas

In [31]: d = {'one' : Series([1., 2., 3.], index=['a', 'b', 'c']),
   ....:      'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
   ....: 

In [32]: df = DataFrame(d)

In [33]: df
Out[33]: 
   one  two
a    1    1
b    2    2
c    3    3
d  NaN    4
user2015487
fonte
3

Você também pode usar pd.concatjunto axis=1com uma lista de pd.Seriesobjetos:

import pandas as pd, numpy as np

d = {'A': np.array([1,2]), 'B': np.array([1,2,3,4])}

res = pd.concat([pd.Series(v, name=k) for k, v in d.items()], axis=1)

print(res)

     A  B
0  1.0  1
1  2.0  2
2  NaN  3
3  NaN  4
jpp
fonte
2

Ambas as linhas a seguir funcionam perfeitamente:

pd.DataFrame.from_dict(df, orient='index').transpose() #A

pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in df.items() ])) #B (Better)

Mas com% timeit no Jupyter, obtive uma proporção de 4x a velocidade para B vs A, o que é bastante impressionante, especialmente quando se trabalha com um grande conjunto de dados (principalmente com um grande número de colunas / recursos).

Ismail Hachimi
fonte
1

Se você não quiser que apareça NaNe tiver dois comprimentos específicos, adicionar um 'espaço' em cada célula restante também funcionaria.

import pandas

long = [6, 4, 7, 3]
short = [5, 6]

for n in range(len(long) - len(short)):
    short.append(' ')

df = pd.DataFrame({'A':long, 'B':short}]
# Make sure Excel file exists in the working directory
datatoexcel = pd.ExcelWriter('example1.xlsx',engine = 'xlsxwriter')
df.to_excel(datatoexcel,sheet_name = 'Sheet1')
datatoexcel.save()

   A  B
0  6  5
1  4  6
2  7   
3  3   

Se você tiver mais de 2 comprimentos de entradas, é aconselhável fazer uma função que use um método semelhante.

Rohan Chandratre
fonte
-3

pd.DataFrame ([my_dict]) vai servir!

john joy
fonte
não se as matrizes dentro do dicionário forem de tamanhos diferentes
baxx