Perguntas com a marcação «dataframe»

Um quadro de dados é uma estrutura de dados tabular. Geralmente, ele contém dados em que linhas são observações e colunas são variáveis de vários tipos. Enquanto "quadro de dados" ou "quadro de dados" é o termo usado para esse conceito em várias línguas (R, Apache Spark, deedle, Maple, a biblioteca de pandas em Python e a biblioteca de DataFrames em Julia), "tabela" é o termo usado em MATLAB e SQL.

1961

Como selecionar linhas de um DataFrame com base nos valores da coluna?

Como selecionar linhas de um com DataFramebase em valores em alguma coluna no Python Pandas? No SQL, eu usaria: SELECT * FROM table WHERE colume_name = some_value Tentei examinar a documentação dos pandas, mas não encontrei a resposta

python pandas dataframe

1951

Como iterar sobre linhas em um DataFrame no Pandas?

Eu tenho um DataFramedos pandas: import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df = pd.DataFrame(inp) print df Resultado: c1 c2 0 10 100 1 11 110 2 12 120 Agora eu quero percorrer as linhas desse quadro. Para cada linha, quero poder acessar seus...

python pandas rows dataframe

1826

Renomeando colunas em pandas

Eu tenho um DataFrame usando pandas e rótulos de coluna que preciso editar para substituir os rótulos originais da coluna. Gostaria de alterar os nomes das colunas em um DataFrame Aonde os nomes das colunas originais são: ['$a', '$b', '$c', '$d', '$e'] para ['a', 'b', 'c', 'd', 'e']. Tenho...

python pandas replace dataframe rename

1331

Excluir coluna do pandas DataFrame

Ao excluir uma coluna em um DataFrame, eu uso: del df['column_name'] E isso funciona muito bem. Por que não consigo usar o seguinte? del df.column_name Como é possível acessar a coluna / série como df.column_name, eu esperava que isso

python pandas dataframe

1316

Como classificar um quadro de dados por várias colunas

Eu quero classificar um data.frame por várias colunas. Por exemplo, com o data.frame abaixo, gostaria de classificar por coluna z(decrescente) e depois por coluna b(crescente): dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), levels = c("Low", "Med", "Hi"), ordered = TRUE), x =...

r sorting dataframe r-faq

1233

Como juntar (mesclar) quadros de dados (interno, externo, esquerdo, direito)

Dados dois quadros de dados: df1 = data.frame(CustomerId = c(1:6), Product = c(rep("Toaster", 3), rep("Radio", 3))) df2 = data.frame(CustomerId = c(2, 4, 6), State = c(rep("Alabama", 2), rep("Ohio", 1))) df1 # CustomerId Product # 1 Toaster # 2 Toaster # 3 Toaster # 4 Radio # 5 Radio # 6...

r join merge dataframe r-faq

1113

Selecionando várias colunas em um dataframe do pandas

Eu tenho dados em colunas diferentes, mas não sei como extraí-los para salvá-los em outra variável. index a b c 1 2 3 4 2 3 4 5 Como faço para selecionar 'a', 'b'e guardá-lo para DF1? eu tentei df1 = df['a':'b'] df1 = df.ix[:, 'a':'b'] Nenhum parece

python pandas dataframe select

1015

Obter lista dos cabeçalhos de coluna do pandas DataFrame

Quero obter uma lista dos cabeçalhos das colunas de um DataFrame do pandas. O DataFrame virá da entrada do usuário, portanto não saberei quantas colunas haverá ou como serão chamadas. Por exemplo, se eu receber um DataFrame como este: >>> my_dataframe y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3...

python pandas dataframe

979

Adicionando nova coluna ao DataFrame existente nos pandas Python

Eu tenho o seguinte DataFrame indexado com colunas e linhas nomeadas, números não contínuos: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 0.051767 1.577318 5 0.614758 0.075793 -0.451460 -0.012493 Gostaria de adicionar uma nova coluna 'e',, ao quadro de dados existente e...

python pandas dataframe chained-assignment

935

Como obtenho a contagem de linhas de um DataFrame do pandas?

Estou tentando obter o número de linhas do dataframe df com o Pandas, e aqui está o meu código. Método 1: total_rows = df.count print total_rows +1 Método 2: total_rows = df['First_columnn_label'].count print total_rows +1 Ambos os trechos de código me dão este erro: TypeError: tipo (s) de...

python pandas dataframe

880

Como alterar a ordem das colunas do DataFrame?

Eu tenho o seguinte DataFrame( df): import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(10, 5)) Eu adiciono mais colunas por atribuição: df['mean'] = df.mean(1) Como posso mover a coluna meanpara a frente, ou seja, defini-la como primeira coluna, deixando a ordem das...

python pandas dataframe

874

Soltar colunas do quadro de dados por nome

Eu tenho várias colunas que gostaria de remover de um quadro de dados. Eu sei que podemos excluí-los individualmente usando algo como: df$x <- NULL Mas eu esperava fazer isso com menos comandos. Além disso, eu sei que eu poderia descartar colunas usando a indexação inteira como esta: df...

r dataframe r-faq

871

Adicione uma linha ao pandas DataFrame

Eu entendo que os pandas são projetados para carregar totalmente preenchidos DataFrame mas preciso criar um DataFrame vazio e adicionar linhas, uma a uma . Qual é a melhor maneira de fazer isso? Criei com sucesso um DataFrame vazio com: res = DataFrame(columns=('lib', 'qty1', 'qty2')) Depois,...

python pandas dataframe append

852

Remova linhas com todos ou alguns NAs (valores ausentes) em data.frame

Gostaria de remover as linhas neste quadro de dados que: a) contém NAs em todas as colunas. Abaixo está o meu exemplo de quadro de dados. gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2 2 2 3 ENSG00000221622 0 NA NA NA NA 4 ENSG00000207604 0 NA NA 1 2 5...

r dataframe filter missing-data r-faq

806

Alterar o tipo de dados das colunas no Pandas

Quero converter uma tabela, representada como uma lista de listas, em um Pandas DataFrame. Como um exemplo extremamente simplificado: a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']] df = pd.DataFrame(a) Qual é a melhor maneira de converter as colunas nos tipos apropriados, neste...

python pandas dataframe types casting

754

Como descartar linhas do Pandas DataFrame cujo valor em uma determinada coluna é NaN

Eu tenho isso DataFramee quero apenas os registros cuja EPScoluna não é NaN: >>> df STK_ID EPS cash STK_ID RPT_Date 601166 20111231 601166 NaN NaN 600036 20111231 600036 NaN 12 600016 20111231 600016 4.3 NaN 601009 20111231 601009 NaN NaN 601939 20111231 601939 2.5 NaN 000001 20111231...

python pandas dataframe nan

728

Como substituo valores NA por zeros em um dataframe R?

Eu tenho um quadro de dados e algumas colunas têm NAvalores. Como substituo esses NAvalores por

r dataframe na missing-data imputation

715

Gravando um DataFrame do pandas em um arquivo CSV

Eu tenho um quadro de dados em pandas que gostaria de gravar em um arquivo CSV. Estou fazendo isso usando: df.to_csv('out.csv') E recebendo o erro: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128) Existe alguma maneira de contornar...

python csv pandas dataframe

657

Converter lista de dicionários em um DataFrame do pandas

Eu tenho uma lista de dicionários como este: [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] E eu quero transformar isso em pandas DataFrameassim: month...

python dictionary pandas dataframe

654

Imprima uma série inteira de Pandas / DataFrame

Eu trabalho muito com Series e DataFrames no terminal. O padrão __repr__para uma série retorna uma amostra reduzida, com alguns valores de cabeça e cauda, mas o restante está ausente. Existe uma maneira embutida de imprimir bonito todo o Series / DataFrame? Idealmente, ele suportaria o...

python pandas dataframe