Eu tentei: x=pandas.DataFrame(...) s = x.take([0], axis=1) E sobtém um DataFrame, não uma
Eu tentei: x=pandas.DataFrame(...) s = x.take([0], axis=1) E sobtém um DataFrame, não uma
Eu quero contar o número de NAvalores em uma coluna de quadro de dados. Digamos que meu quadro de dados seja chamado dfe o nome da coluna que estou considerando seja col. A maneira como inventei é a seguinte: sapply(df$col, function(x) sum(length(which(is.na(x))))) Essa é uma maneira boa / mais...
Eu tenho um arquivo csv sem cabeçalho, com um índice DateTime. Quero renomear o nome do índice e da coluna, mas com df.rename () apenas o nome da coluna é renomeado. Erro? Estou na versão 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]],...
Suponha que eu tenha um DataFrame com alguns NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 O que eu preciso fazer é substituir todos os itens NaNcom o primeiro não...
Criei um data.frame em R que não é muito grande, mas leva algum tempo para ser construído. Gostaria de salvá-lo como um arquivo, que posso abrir novamente no
Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError...
Eu tenho um dataframe de pandas com colunas de tipo misto e gostaria de aplicar o min_max_scaler do sklearn a algumas das colunas. Idealmente, eu gostaria de fazer essas transformações no local, mas ainda não descobri uma maneira de fazer isso. Eu escrevi o seguinte código que funciona: import...
Eu tenho pandas DataFramecomo seguir. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Quero agrupar isso por ["id",...
Eu tenho um quadro de dados com nomes de colunas e quero encontrar o que contém uma determinada sequência de caracteres, mas não corresponde exatamente a ela. Estou procurando 'spike'em nomes de coluna como 'spike-2', 'hey spike', 'spiked-in'(o'spike' parte é sempre contínua). Desejo que o nome da...
Qual é a maneira mais eficiente de organizar o seguinte DataFrame dos pandas: data = Position Letter 1 a 2 b 3 c 4 d 5 e em um dicionário como alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 :
Estou trabalhando com um arquivo csv grande e a penúltima coluna tem uma sequência de texto que eu quero dividir por um delimitador específico. Eu queria saber se existe uma maneira simples de fazer isso usando pandas ou python? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney,...
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Qual é a melhor maneira de retornar os valores exclusivos de 'Col1' e 'Col2'? A saída desejada é 'Bob', 'Joe', 'Bill', 'Mary',
A tarefa simples de adicionar uma linha a um pandas.DataFrameobjeto parece ser difícil de realizar. Existem três perguntas sobre o stackoverflow relacionadas a isso, nenhuma das quais fornece uma resposta útil. Aqui está o que estou tentando fazer. Eu tenho um DataFrame do qual eu já conheço a...
Eu tenho um DataFrame simples como o seguinte: Quero selecionar todos os valores da coluna 'Primeira Temporada' e substituir os que estão acima de 1990 por 1. Nesse exemplo, apenas o Baltimore Ravens teria o 1996 substituído por 1 (mantendo o restante dos dados intactos). Eu usei o...
Qual é a melhor maneira de atribuir a várias colunas usando data.table? Por exemplo: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Gostaria de fazer algo assim (é claro que esta sintaxe está incorreta): x[ , (col1, col2) := f(), by = "id"] E para estender isso, eu posso...
No R, como você adiciona uma nova linha a um quadro de dados depois que o quadro de dados já foi inicializado? Até agora eu tenho o seguinte: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola",...
Dados dois quadros de dados ae b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570...
Quero saber como omitir NAvalores em um quadro de dados, mas apenas em algumas colunas em que estou interessado. Por exemplo, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) mas eu só quero omitir os dados onde yestá NA, portanto o resultado deve ser x y z 1 1 0 NA 2 2...
Estou procurando uma maneira eficiente de remover partes indesejadas de seqüências de caracteres em uma coluna DataFrame. Os dados se parecem com: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Preciso aparar esses dados para: time result 1 09:00 52 2 10:00 62 3...
Eu tenho uma lista de quadros de dados do Pandas que gostaria de combinar em um quadro de dados do Pandas. Estou usando o Python 2.7.10 e o Pandas 0.16.2 Criei a lista de quadros de dados de: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall ,...