Perguntas com a marcação «dataframe»

13
Pandas lentos DataFrame MultiIndex reindex

Eu tenho um DataFrame de pandas do formulário: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71...

12
Gerar produtos cartesianos binários filtrados

Declaração do problema Estou procurando uma maneira eficiente de gerar produtos cartesianos binários completos (tabelas com todas as combinações de True e False com um certo número de colunas), filtradas por determinadas condições exclusivas. Por exemplo, para três colunas / bits n=3obteríamos a...

11
mesclar quadros de dados com base em várias colunas e limites

Eu tenho dois data.frames com várias colunas comuns (aqui: date, city, ctry, e ( other_) number). Gostaria agora de mesclá-los nas colunas acima, mas tolero algum nível de diferença: threshold.numbers <- 3 threshold.date <- 5 # in days Se a diferença entre as dateentradas for >...

11
identificar e marcar linhas duplicadas em r

Gostaria de identificar e marcar linhas duplicadas com base em 2 colunas. Gostaria de criar um identificador exclusivo para cada duplicata, para que eu saiba não apenas que a linha é uma duplicata, mas com qual linha é uma duplicata. Eu tenho um quadro de dados que se parece com abaixo com alguns...

8
Pandas agrupam por resultado em colunas

Eu tenho o dataframe assim: x = pd.DataFrame({ 'audio': ['audio1', 'audio1', 'audio2', 'audio2', 'audio3', 'audio3'], 'text': ['text1', 'text2', 'text3', 'text4', 'text5', 'text6'], 'login': ['operator1', 'operator2', 'operator3', 'operator4', 'operator5', 'operator6'] }) Eu estou tentando...