Perguntas com a marcação «clustering»

A análise de cluster ou clustering é a tarefa de agrupar um conjunto de objetos de forma que os objetos do mesmo grupo (chamados de cluster) sejam mais semelhantes (em certo sentido ou outro) entre si do que os de outros grupos (clusters) . É uma tarefa principal da mineração de dados exploratória e uma técnica comum para análise de dados estatísticos, usada em muitos campos, incluindo aprendizado de máquina, reconhecimento de padrões, análise de imagens, recuperação de informações etc.

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

15
Agrupando visitantes únicos por useragent, ip, session_id

Dados os dados de acesso ao site no formulário session_id, ip, user_agente, opcionalmente, o carimbo de data / hora, seguindo as condições abaixo, como você agruparia melhor as sessões em visitantes únicos? session_id: é um ID fornecido a cada novo visitante. Ele não expira; no entanto, se o...

14
K-significa rápido como algoritmo para 10 ^ 10 pontos?

Eu estou olhando para fazer k-significa agrupar em um conjunto de 10 pontos dimensionais. O problema: há 10 ^ 10 pontos . Estou procurando apenas o centro e o tamanho dos maiores aglomerados (digamos 10 a 100); Não me importo com o cluster em que cada ponto termina. Usar k-means especificamente...