Converta uma lista de listas em um Dataframe do Pandas

30

Estou tentando converter uma lista de listas que se parece com o seguinte em um Dataframe do Pandas

[['New York Yankees ', '"Acevedo Juan"  ', 900000, ' Pitcher\n'], 
['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], 
['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], 
['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']]

Estou basicamente tentando converter cada item da matriz em um quadro de dados do pandas que possui quatro colunas. Qual seria a melhor abordagem para isso, como o pd.Dataframe não me dá exatamente o que estou procurando.

Aravind Veluchamy
fonte
veja esta pergunta no estouro de pilha: stackoverflow.com/questions/.../…
keramat

Respostas:

36
import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

df = pd.DataFrame.from_records(data)
Emre
fonte
4
Você pode refinar um pouco mais com: DataFrame.from_records (dados, colunas = ['Equipe', 'Jogador', 'o que quer que seja o estatuto', 'posição'])
Juan Ignacio Gil
11
Existe uma maneira de especificar as importações mais especificamente? Por exemplo, eu quero especificar que DataFrame["Team"]deve se referir ao primeiro item de cada sublist (ie data[i][0]) e DataFrame["Position"]se referir ao último item de cada sublist (ie data[i][-1])?
Ivo
@Ivo: Use o columnsparâmetro DataFrame.from_records .
Emre
14

Depois de ter os dados:

import pandas as pd

data = [['New York Yankees ', '"Acevedo Juan"  ', 900000, ' Pitcher\n'], 
        ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], 
        ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], 
        ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']]

Você pode criar um quadro de dados a partir da transposição dos dados:

data_transposed = zip(data)
df = pd.DataFrame(data_transposed, columns=["Team", "Player", "Salary", "Role"])

Outra maneira:

df = pd.DataFrame(data)
df = df.transpose()
df.columns = ["Team", "Player", "Salary", "Role"]
Paloma Manzano
fonte
5

Você pode defini-lo diretamente como um quadro de dados da seguinte maneira:

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data)
LUSAQX
fonte
1
import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'],
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

df = pd.DataFrame(data)
tharun___ entusiasta dos dados
fonte
0

Este foi de longe o mais simples:

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data)

agora, se as chaves forem a primeira lista na lista de listas (dados [0]), você poderá atribuí-las aos cabeçalhos das colunas no quadro de dados da seguinte maneira:

import pandas as pd

data = [['key1', 'key2', key3, 'key4'], 
    ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
    ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
    ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data[1:], columns=data[0])
GManAsg
fonte