Perguntas com a marcação «data-mining»

Uma atividade que procura padrões em conjuntos de dados grandes e complexos. Geralmente enfatiza técnicas algorítmicas, mas também pode envolver qualquer conjunto de habilidades, aplicativos ou metodologias relacionadas com esse objetivo.

29
Como fazer SVD e PCA com big data?

Eu tenho um grande conjunto de dados (cerca de 8 GB). Eu gostaria de usar o aprendizado de máquina para analisá-lo. Então, acho que devo usar SVD e PCA para reduzir a dimensionalidade dos dados para obter eficiência. No entanto, MATLAB e Octave não podem carregar um conjunto de dados tão...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

25
Coeficiente de Gini versus impureza de Gini - árvores de decisão

O problema refere-se à construção de árvores de decisão. Segundo a Wikipedia, ' coeficiente de Gini ' não deve ser confundido com ' impureza de Gini '. No entanto, ambas as medidas podem ser usadas na construção de uma árvore de decisão - elas podem apoiar nossas escolhas ao dividir o conjunto de...

24
Significado de recursos latentes?

Estou aprendendo sobre fatoração matricial para sistemas de recomendação e estou vendo o termo latent featuresocorrer com muita frequência, mas não consigo entender o que isso significa. Eu sei o que é um recurso, mas não entendo a idéia de recursos latentes. Poderia explicar isso? Ou pelo menos me...

22
A ciência de dados é igual à mineração de dados?

Estou certo de que a ciência de dados, como será discutido neste fórum, possui vários sinônimos ou pelo menos campos relacionados, nos quais grandes dados são analisados. Minha pergunta particular é em relação à mineração de dados. Tive uma aula de graduação em Data Mining há alguns anos. Quais...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...