Perguntas com a marcação «dataset»

Um conjunto de dados é uma coleção de dados, geralmente em forma de tabela ou matriz. Essa tag NÃO se destina a solicitações de dados ("onde posso encontrar um conjunto de dados sobre ...") -> consulte OpenData

168
Conjuntos de dados publicamente disponíveis

Um dos problemas comuns na ciência de dados é coletar dados de várias fontes em um formato de alguma forma limpo (semiestruturado) e combinar métricas de várias fontes para fazer uma análise de nível superior. Observando o esforço de outras pessoas, especialmente outras perguntas neste site, parece...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

13
Conjuntos de dados que compreendem as melhores práticas

Eu sou um estudante de mestrado em mineração de dados. Meu supervisor me disse uma vez que, antes de executar qualquer classificador ou fazer qualquer coisa com um conjunto de dados, preciso entender completamente os dados e garantir que eles estejam limpos e corretos. Minhas perguntas: Quais...

12
Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...