Perguntas com a marcação «data»

Perguntas mais preocupadas com o gerenciamento de dados, sem foco no pré-processamento ou modelagem.

86
Qual é o tamanho do big data?

Muitas pessoas usam o termo big data de maneira bastante comercial , como um meio de indicar que grandes conjuntos de dados estão envolvidos na computação e, portanto, as soluções em potencial devem ter um bom desempenho. Obviamente, o big data sempre carrega termos associados, como escalabilidade...

48
A linguagem R é adequada para Big Data

R possui muitas bibliotecas destinadas à análise de dados (por exemplo, JAGS, BUGS, ARULES etc.), e são mencionadas em livros populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning with R". Eu vi uma diretriz de 5 TB para um conjunto de dados ser considerado como Big...

40
Ciência de dados em C (ou C ++)

Sou Rprogramador de idiomas. Também faço parte do grupo de pessoas que são consideradas cientistas de dados, mas que vêm de outras disciplinas acadêmicas que não a CS. Isso funciona bem no meu papel de cientista de dados, no entanto, ao iniciar minha carreira Re ter apenas o conhecimento básico de...

33
Abrindo um arquivo de 20 GB para análise com pandas

No momento, estou tentando abrir um arquivo com pandas e python para fins de aprendizado de máquina. Seria ideal para todos eles em um DataFrame. Agora, o arquivo tem 18 GB de largura e minha RAM tem 32 GB, mas continuo recebendo erros de memória. De sua experiência é possível? Se você não conhece...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

29
Como fazer SVD e PCA com big data?

Eu tenho um grande conjunto de dados (cerca de 8 GB). Eu gostaria de usar o aprendizado de máquina para analisá-lo. Então, acho que devo usar SVD e PCA para reduzir a dimensionalidade dos dados para obter eficiência. No entanto, MATLAB e Octave não podem carregar um conjunto de dados tão...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...