Ciência de dados

25
Coeficiente de Gini versus impureza de Gini - árvores de decisão

O problema refere-se à construção de árvores de decisão. Segundo a Wikipedia, ' coeficiente de Gini ' não deve ser confundido com ' impureza de Gini '. No entanto, ambas as medidas podem ser usadas na construção de uma árvore de decisão - elas podem apoiar nossas escolhas ao dividir o conjunto de...

25
LightGBM vs XGBoost

Estou tentando entender o que é melhor (mais preciso, principalmente em problemas de classificação) Pesquisei artigos comparando o LightGBM e o XGBoost, mas encontrei apenas dois: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - que trata...

24
O Random Forest superajustou?

Eu tenho lido sobre florestas aleatórias, mas não consigo realmente encontrar uma resposta definitiva sobre o problema do excesso de ajuste. De acordo com o artigo original de Breiman, eles não devem se superestimar ao aumentar o número de árvores na floresta, mas parece que não há consenso sobre...

24
Algum console do Online R?

Estou procurando um console online para o idioma R. Como se eu escrevesse o código e o servidor fosse executado e me fornecesse a saída. Semelhante ao site

24
Significado de recursos latentes?

Estou aprendendo sobre fatoração matricial para sistemas de recomendação e estou vendo o termo latent featuresocorrer com muita frequência, mas não consigo entender o que isso significa. Eu sei o que é um recurso, mas não entendo a idéia de recursos latentes. Poderia explicar isso? Ou pelo menos me...

24
Imagem da VM para projetos de ciência de dados

Como existem inúmeras ferramentas disponíveis para tarefas de ciência de dados, é complicado instalar tudo e criar um sistema perfeito. Existe uma imagem do Linux / Mac OS com Python, R e outras ferramentas de ciência de dados de código aberto instaladas e disponíveis para uso imediato das...

23
Como usar a saída do GridSearch?

Atualmente, estou trabalhando com o Python e o Scikit para fins de classificação e, lendo o GridSearch, achei que essa era uma ótima maneira de otimizar meus parâmetros do estimador para obter os melhores resultados. Minha metodologia é esta: Dividir meus dados em treinamento / teste. Use o...