Estou procurando conjuntos de dados de pontos de dados bidimensionais (cada ponto de dados é um vetor de dois valores (x, y)) seguindo diferentes distribuições e formulários. O código para gerar esses dados também seria útil. Eu quero usá-los para plotar / visualizar o desempenho de alguns algoritmos de cluster. aqui estão alguns exemplos:
9
Respostas:
O R vem com muitos conjuntos de dados e parece que não seria grande coisa reproduzir a maioria dos exemplos que você citou com poucas linhas de código. Você também pode achar útil o pacote mlbench , em particular conjuntos de dados sintéticos começando com
mlbench.*
. Algumas ilustrações são dadas abaixo.Você encontrará exemplos adicionais consultando a Cluster Task View no CRAN. Por exemplo, o pacote fpc possui um gerador interno para conjuntos de dados de benchmark "em forma de face" (
rFace
).Considerações semelhantes se aplicam ao Python, onde você encontrará testes de benchmark e conjuntos de dados interessantes para agrupar com o scikit-learn .
O Repositório de Aprendizado de Máquina da UCI também hospeda muitos conjuntos de dados , mas é melhor você mesmo simular dados com o idioma de sua escolha.
fonte
Aqui estão alguns conjuntos de dados projetados exatamente para esta tarefa:
O Conjunto Fundamental de Problemas de Clustering da Ultsch
fonte
Este benchmark de agrupamento de brinquedos contém vários conjuntos de dados no formato ARFF (podem ser facilmente convertidos em CSV), principalmente com rótulos verdadeiros. O benchmark deve validar as propriedades básicas desejadas dos algoritmos de clustering. A maioria dos conjuntos de dados vem de documentos de cluster, como:
fonte
O ELKI vem com alguns conjuntos de dados (verifique também os testes de unidade, eles contêm muito mais do que aqueles no site, juntamente com as configurações dos parâmetros).
Ele também inclui um gerador de dados bastante flexível.
fonte
Aqui está um gerador de cluster personalizável. Ele aborda apenas uma certa classe de conjuntos de dados, mas certamente pode ser usado para investigações de algoritmos de cluster.
Aqui está um exemplo do tipo de clusters que ele pode criar:
A afiliação de cluster é salva em um arquivo de texto. O código é de código aberto sob licença MIT.
fonte
Esse script do Matlab gera dados 2D para cluster. Ele aceita vários parâmetros para que os dados gerados estejam dentro dos requisitos do usuário.
fonte
Não acredito que ninguém tenha mencionado os dados da íris de Fisher.
Acho que não vi uma técnica de agrupamento que não usa os dados da íris como exemplo.
Em r, digite "íris" para acessar os dados.
Aqui está um exemplo de uma plotagem de íris agradável (e típica): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
fonte