Parece que para médias K e outros algoritmos relacionados, o agrupamento é baseado no cálculo da distância entre pontos. Existe alguém que funciona sem
Parece que para médias K e outros algoritmos relacionados, o agrupamento é baseado no cálculo da distância entre pontos. Existe alguém que funciona sem
Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ? Aggarwal et al., Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão, disseram (em 2001) queL1L1L_1L.5L.5L_.5L2L2L_2 é consistentemente mais preferível do que a métrica de distância euclidiana L...
Alguém pode me indicar uma implementação de k-means (seria melhor se no matlab) que pode levar a matriz de distância na entrada? A implementação padrão do matlab precisa da matriz de observação na entrada e não é possível alterar de forma personalizada a medida de similaridade....
Esta é uma pergunta ingênua de alguém que começa a aprender aprendizado de máquina. Atualmente, estou lendo o livro "Aprendizado de máquina: uma perspectiva algorítmica" de Marsland. Considero útil como um livro introdutório, mas agora gostaria de entrar em algoritmos avançados, aqueles que...
Estou tentando entender a medida dinâmica de distorção do tempo para comparar séries temporais juntas. Eu tenho três conjuntos de dados de séries temporais como este: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783,...
A seguir, é descrito o que estou tentando realizar, mas é possível que uma declaração alternativa de problema possa descrever meu objetivo: eu quero divida os seguintes números em grupos em que as variações dos números em cada grupo não são muito grandes e as diferenças entre as médias dos...
Eu sei que existe algoritmo de agrupamento k-means e mediana k. Um que usa a média como o centro do cluster e o outro usa a mediana. Minha pergunta é: quando / onde usar
Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D,...
Eu pesquisei sobre k-means e é isso que obtive: k-means é um dos algoritmos mais simples que usa o método de aprendizado não supervisionado para resolver problemas conhecidos de agrupamento. Funciona muito bem com grandes conjuntos de dados. No entanto, também existem desvantagens do K-Means, que...
Estou experimentando a classificação de dados em grupos. Sou bastante novo neste tópico e estou tentando entender o resultado de algumas das análises. Usando exemplos do Quick-R , vários Rpacotes são sugeridos. Eu tentei usar dois desses pacotes ( fpcusando a kmeansfunção e mclust). Um aspecto...
Eu tenho alguns pontos de dados, cada um contendo 5 vetores de resultados discretos aglomerados, os resultados de cada vetor gerados por uma distribuição diferente (o tipo específico do qual não tenho certeza, meu melhor palpite é Weibull, com o parâmetro de forma variando em algum ponto...
O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que...
Aprendi que, ao escolher um número de clusters, você deve procurar um ponto de cotovelo para diferentes valores de K. Plotei os valores de ininss para valores de k de 1 a 10, mas não estou vendo uma clara cotovelo. O que você faz em um caso como
Estou usando kkk significa agrupar para agrupar as vozes dos alto-falantes. Quando comparo um enunciado com os dados do alto-falante em cluster, obtenho distorção média (baseada na distância euclidiana). Essa distância pode estar na faixa de [0,∞][0,∞][0,\infty] . Eu quero converter essa distância...
Para cluster hierárquico, geralmente vejo as duas "métricas" a seguir (elas não estão falando exatamente) para medir a distância entre duas variáveis aleatórias e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ COR (X, Y) |, \\ d_2 (X, Y) & = 1 - (\ COR (X,...
Se eu tiver um determinado conjunto de dados, quão inteligente seria inicializar os centros de cluster usando meios de amostras aleatórias desse conjunto de dados? Por exemplo, suponha que eu queira 5 clusters. Tomo 5 random samples, digamos, size=20%o conjunto de dados original. Eu poderia então...
Eu tenho dados temporais de frequências de atividade. Quero identificar clusters nos dados que indicam períodos distintos de tempo com níveis de atividade semelhantes. Idealmente, quero identificar os clusters sem especificar o número de clusters a priori. Quais são as técnicas de clustering...
Eu tenho 17 variáveis numéricas e 5 binárias (0-1), com 73 amostras no meu conjunto de dados. Eu preciso executar uma análise de cluster. Eu sei que a distância de Gower é uma boa métrica para conjuntos de dados com variáveis mistas. No entanto, eu não conseguia entender como a distância de...
Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao...
Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada....