Procurando dados artificiais 2D para demonstrar propriedades de algoritmos de cluster

9

Estou procurando conjuntos de dados de pontos de dados bidimensionais (cada ponto de dados é um vetor de dois valores (x, y)) seguindo diferentes distribuições e formulários. O código para gerar esses dados também seria útil. Eu quero usá-los para plotar / visualizar o desempenho de alguns algoritmos de cluster. aqui estão alguns exemplos:

steffen
fonte
Eu voto para cw;)
steffen
Uma pergunta semelhante em linhas de conjuntos de dados específicos foi encerrada aqui: stats.stackexchange.com/questions/38928/…
hearse
Para o SPSS, escrevi uma macro geradora de cluster (visite minha página, consulte "Gerar clusters"). No entanto, não produz formas pretensiosas, como anéis ou espirais.
precisa saber é o seguinte

Respostas:

11

O R vem com muitos conjuntos de dados e parece que não seria grande coisa reproduzir a maioria dos exemplos que você citou com poucas linhas de código. Você também pode achar útil o pacote mlbench , em particular conjuntos de dados sintéticos começando com mlbench.*. Algumas ilustrações são dadas abaixo.

insira a descrição da imagem aqui

Você encontrará exemplos adicionais consultando a Cluster Task View no CRAN. Por exemplo, o pacote fpc possui um gerador interno para conjuntos de dados de benchmark "em forma de face" ( rFace).

insira a descrição da imagem aqui

Considerações semelhantes se aplicam ao Python, onde você encontrará testes de benchmark e conjuntos de dados interessantes para agrupar com o scikit-learn .

O Repositório de Aprendizado de Máquina da UCI também hospeda muitos conjuntos de dados , mas é melhor você mesmo simular dados com o idioma de sua escolha.

Chl
fonte
2

Este benchmark de agrupamento de brinquedos contém vários conjuntos de dados no formato ARFF (podem ser facilmente convertidos em CSV), principalmente com rótulos verdadeiros. O benchmark deve validar as propriedades básicas desejadas dos algoritmos de clustering. A maioria dos conjuntos de dados vem de documentos de cluster, como:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan e Miron Livny. "BIRCH: um método eficiente de agrupamento de dados para bancos de dados muito grandes." Registro ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi e Kyuseok Shim. "CURE: um algoritmo de agrupamento eficiente para grandes bancos de dados." Registro ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Camaleão - Karypis, George, Eui-Hong Han e Vipin Kumar. "Chameleon: cluster hierárquico usando modelagem dinâmica." Computer 32.8 (1999): 68-75.
  • The Fundamental Clustering Problem Suite - Ultsch, A .: Clustering com SOM: U * C, In Proc. Workshop sobre mapas auto-organizados, Paris, França, (2005), pp. 75-82
  • MOCK - Handl, Julia e Joshua Knowles. "Uma abordagem evolutiva do agrupamento multiobjetivo". Computação Evolutiva, Transações IEEE em 11.1 (2007): 56-76.
  • Cluster espectral robusto baseado em caminhos - Chang, Hong e Dit-Yan Yeung. "Agrupamento espectral robusto baseado em caminho." Reconhecimento de Padrões 41.1 (2008): 191-203.

dados de karypis dados cluto

Tombart
fonte
1

O ELKI vem com alguns conjuntos de dados (verifique também os testes de unidade, eles contêm muito mais do que aqueles no site, juntamente com as configurações dos parâmetros).

Ele também inclui um gerador de dados bastante flexível.

Possui QUIT - Anony-Mousse
fonte
1

Aqui está um gerador de cluster personalizável. Ele aborda apenas uma certa classe de conjuntos de dados, mas certamente pode ser usado para investigações de algoritmos de cluster.

Aqui está um exemplo do tipo de clusters que ele pode criar:

http://i.stack.imgur.com/vrCG5.png

A afiliação de cluster é salva em um arquivo de texto. O código é de código aberto sob licença MIT.

Felix Dobslaw
fonte
1

Esse script do Matlab gera dados 2D para cluster. Ele aceita vários parâmetros para que os dados gerados estejam dentro dos requisitos do usuário.

faken
fonte
0

Não acredito que ninguém tenha mencionado os dados da íris de Fisher.

Acho que não vi uma técnica de agrupamento que não usa os dados da íris como exemplo.

Em r, digite "íris" para acessar os dados.

Aqui está um exemplo de uma plotagem de íris agradável (e típica): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

geneorama
fonte