Perguntas com a marcação «clustering»

133

K-Means clustering para dados numéricos e categóricos mistos

Meu conjunto de dados contém vários atributos numéricos e um categórico. Dizer, NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, onde CategoricalAttrleva um dos três valores possíveis: CategoricalAttrValue1, CategoricalAttrValue2ou CategoricalAttrValue3. Estou usando a...

51

Coordenadas de localização geográfica em cluster (pares longos e latinos)

Qual é a abordagem correta e o algoritmo de clustering para clustering de geolocalização? Estou usando o seguinte código para agrupar coordenadas de localização geográfica: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([...

machine-learning python clustering k-means geospatial

30

Qual é o melhor modelo Keras para classificação de várias classes?

Eu estou trabalhando em pesquisa, onde necessidade de uma classificar de WINNER três event = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Meu modelo atual é: def...

python neural-network classification clustering keras

29

Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

23

É necessário padronizar seus dados antes do armazenamento em cluster?

É necessário padronizar seus dados antes do cluster? No exemplo do scikit learnDBSCAN, aqui eles fazem isso na linha: X = StandardScaler().fit_transform(X) Mas não entendo por que é necessário. Afinal, o clustering não assume nenhuma distribuição específica de dados - é um método de aprendizado...

python clustering clusters anomaly-detection

23

K significa comportamento incoerente escolhendo K com método Elbow, BIC, variância explicada e silhueta

Estou tentando agrupar alguns vetores com 90 recursos com K-means. Como esse algoritmo me pergunta o número de clusters, quero validar minha escolha com algumas boas matemáticas. Espero ter de 8 a 10 clusters. Os recursos são escalonados em Z-score. Método do cotovelo e variância explicados from...

clustering k-means

22

Cálculo da divergência KL em Python

Eu sou bastante novo nisso e não posso dizer que tenho uma compreensão completa dos conceitos teóricos por trás disso. Estou tentando calcular a divergência KL entre várias listas de pontos em Python. Estou usando

python clustering scikit-learn

22

Como lidar com séries temporais que mudam de sazonalidade ou outros padrões?

fundo Estou trabalhando em um conjunto de dados de séries temporais de leituras de medidores de energia. A duração da série varia de acordo com o metro - para alguns, tenho vários anos, outros apenas alguns meses etc. Muitos exibem sazonalidade significativa e muitas vezes múltiplas camadas -...

data-mining clustering time-series beginner

18

Melhor algoritmo prático para similaridade de sentenças

Eu tenho duas frases, S1 e S2, ambas com uma contagem de palavras (geralmente) abaixo de 15. Quais são os algoritmos mais úteis e bem-sucedidos (aprendizado de máquina), que são possivelmente fáceis de implementar (a rede neural é aceitável, a menos que a arquitetura seja tão complicada quanto o...

nlp clustering word2vec similarity

18

Word2Vec vs. Sentença2Vec vs. Doc2Vec

Recentemente, deparei com os termos Word2Vec , Sentença2Vec e Doc2Vec e meio que confuso, pois sou novo na semântica de vetores. Alguém por favor pode elaborar as diferenças nesses métodos em palavras simples. Quais são as tarefas mais adequadas para cada

machine-learning data-mining clustering nlp unsupervised-learning

17

K-means: Quais são algumas boas maneiras de escolher um conjunto eficiente de centróides iniciais?

Quando uma inicialização aleatória de centróides é usada, diferentes execuções de médias K produzem diferentes SSEs totais. E é crucial no desempenho do algoritmo. Quais são algumas abordagens eficazes para resolver esse problema? Abordagens recentes são

data-mining clustering k-means

17

Clustering com base em pontuações de similaridade

Assume-se que temos um conjunto de elementos de E e uma similaridade ( não distância ) função SIM (EI, ej) entre dois elementos ei, ej ∈ E . Como poderíamos (eficientemente) agrupar os elementos de E usando sim ? k significa, por exemplo, requer um determinado k , o Canopy Clustering requer dois...

clustering algorithms similarity

17

Algoritmos para agrupamento de texto

Eu tenho um problema de agrupar uma quantidade enorme de frases em grupos por seus significados. Isso é semelhante a um problema quando você tem muitas frases e deseja agrupá-las por seus significados. Quais algoritmos são sugeridos para fazer isso? Não conheço o número de clusters com...

clustering text-mining algorithms scikit-learn

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

K-significa vs. K-significa online

K-means é um algoritmo bem conhecido para agrupamento, mas também há uma variação on-line desse algoritmo (K-means on-line). Quais são os prós e os contras dessas abordagens e quando cada um deve ser

clustering algorithms k-means

15

Agrupando visitantes únicos por useragent, ip, session_id

Dados os dados de acesso ao site no formulário session_id, ip, user_agente, opcionalmente, o carimbo de data / hora, seguindo as condições abaixo, como você agruparia melhor as sessões em visitantes únicos? session_id: é um ID fornecido a cada novo visitante. Ele não expira; no entanto, se o...

clustering

14

K-significa rápido como algoritmo para 10 ^ 10 pontos?

Eu estou olhando para fazer k-significa agrupar em um conjunto de 10 pontos dimensionais. O problema: há 10 ^ 10 pontos . Estou procurando apenas o centro e o tamanho dos maiores aglomerados (digamos 10 a 100); Não me importo com o cluster em que cada ponto termina. Usar k-means especificamente...

clustering k-means

14

Usando atributos para classificar / agrupar perfis de usuário

Eu tenho um conjunto de dados de usuários que compram produtos de um site. Os atributos que tenho são: ID do usuário, região (estado) do usuário, ID das categorias do produto, ID das palavras-chave do produto, ID das palavras-chave do site e valor das vendas gastas do produto. O objetivo é usar...

machine-learning data-mining classification clustering

13

Reconhecer uma gramática em uma sequência de tokens difusos

Tenho documentos de texto que contêm principalmente listas de itens. Cada item é um grupo de vários tokens de diferentes tipos: nome, sobrenome, data de nascimento, número de telefone, cidade, ocupação etc. Um token é um grupo de palavras. Os itens podem estar em várias linhas. Os itens de um...

data-mining clustering text-mining time-series correlation

12

Classifique os clientes com base em 2 recursos E uma série de eventos

Preciso de ajuda sobre qual deve ser meu próximo passo em um algoritmo que estou projetando. Devido aos NDAs, não posso divulgar muito, mas tentarei ser genérico e compreensível. Basicamente, após várias etapas nos algoritmos, tenho o seguinte: Para cada cliente que eu tenho e eventos que eles...

classification clustering time-series