Perguntas com a marcação «bigdata»

Big data é o termo para uma coleção de conjuntos de dados tão grandes e complexos que fica difícil processar usando ferramentas de gerenciamento de banco de dados disponíveis ou aplicativos tradicionais de processamento de dados. Os desafios incluem captura, curadoria, armazenamento, pesquisa, compartilhamento, transferência, análise e visualização.

86
Qual é o tamanho do big data?

Muitas pessoas usam o termo big data de maneira bastante comercial , como um meio de indicar que grandes conjuntos de dados estão envolvidos na computação e, portanto, as soluções em potencial devem ter um bom desempenho. Obviamente, o big data sempre carrega termos associados, como escalabilidade...

48
A linguagem R é adequada para Big Data

R possui muitas bibliotecas destinadas à análise de dados (por exemplo, JAGS, BUGS, ARULES etc.), e são mencionadas em livros populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning with R". Eu vi uma diretriz de 5 TB para um conjunto de dados ser considerado como Big...

40
Ciência de dados em C (ou C ++)

Sou Rprogramador de idiomas. Também faço parte do grupo de pessoas que são consideradas cientistas de dados, mas que vêm de outras disciplinas acadêmicas que não a CS. Isso funciona bem no meu papel de cientista de dados, no entanto, ao iniciar minha carreira Re ter apenas o conhecimento básico de...

33
Abrindo um arquivo de 20 GB para análise com pandas

No momento, estou tentando abrir um arquivo com pandas e python para fins de aprendizado de máquina. Seria ideal para todos eles em um DataFrame. Agora, o arquivo tem 18 GB de largura e minha RAM tem 32 GB, mas continuo recebendo erros de memória. De sua experiência é possível? Se você não conhece...

29
Como fazer SVD e PCA com big data?

Eu tenho um grande conjunto de dados (cerca de 8 GB). Eu gostaria de usar o aprendizado de máquina para analisá-lo. Então, acho que devo usar SVD e PCA para reduzir a dimensionalidade dos dados para obter eficiência. No entanto, MATLAB e Octave não podem carregar um conjunto de dados tão...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

14
Quando os valores p enganam?

Quais são as condições de dados que devemos observar, onde os valores de p podem não ser a melhor maneira de decidir a significância estatística? Existem tipos de problemas específicos que se enquadram nessa

13
Estudo de caso de big data ou exemplo de caso de uso

Eu li muitos artigos de blogs sobre como diferentes tipos de indústrias estão usando o Big Data Analytic. Mas a maioria desses artigos não menciona Que tipo de dados essas empresas usaram. Qual foi o tamanho dos dados Que tipo de tecnologias de ferramentas eles usaram para processar os dados Qual...

13
O Python é adequado para big data

Eu li neste post. A linguagem R é adequada para Big Data que o big data constitui 5TBe, embora faça um bom trabalho em fornecer informações sobre a viabilidade de trabalhar com esse tipo de dados R, fornece muito pouca informação sobre Python. Fiquei me perguntando se Pythonpode trabalhar com...