Perguntas com a marcação «pandas»

pandas é uma biblioteca python para manipulação e análise de dados em painel, por exemplo, séries temporais multidimensionais e conjuntos de dados transversais comumente encontrados em estatísticas, resultados de ciências experimentais, econometria ou finanças.

73
Diferença entre isna () e isnull () em pandas

Eu tenho usado pandas por algum tempo. Mas não entendi qual é a diferença entre isna()e isnull()nos pandas. E, mais importante, qual usar para identificar valores ausentes no quadro de dados. Qual é a diferença básica subjacente de como um valor é detectado como um naou outro...

69
Por que as pessoas preferem o Pandas ao SQL?

Uso SQL desde 1996, portanto, posso ser tendencioso. Eu usei o MySQL e o SQLite 3 extensivamente, mas também usei o Microsoft SQL Server e Oracle. A grande maioria das operações que eu já vi feitas com o Pandas pode ser feita mais facilmente com o SQL. Isso inclui filtrar um conjunto de dados,...

33
Abrindo um arquivo de 20 GB para análise com pandas

No momento, estou tentando abrir um arquivo com pandas e python para fins de aprendizado de máquina. Seria ideal para todos eles em um DataFrame. Agora, o arquivo tem 18 GB de largura e minha RAM tem 32 GB, mas continuo recebendo erros de memória. De sua experiência é possível? Se você não conhece...

30
Converta uma lista de listas em um Dataframe do Pandas

Estou tentando converter uma lista de listas que se parece com o seguinte em um Dataframe do Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'],...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

14
Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost

12
Como mesclar dois quadros de dados no Python Pandas?

Eu tenho dois quadros de dados df1 e df2 e gostaria de mesclá-los em um único quadro de dados. É como se o df1 e o df2 fossem criados dividindo um único quadro de dados verticalmente no centro, como rasgar um pedaço de papel que contém uma lista ao meio para que metade das colunas fique em um papel...