Existem vários conjuntos de dados clássicos para tarefas de classificação / regressão de aprendizado de máquina. Os mais populares são:
- Conjunto de dados de flor de íris ;
- Conjunto de dados do Titanic ;
- Carros da tendência do motor ;
- etc.
Mas alguém conhece conjuntos de dados semelhantes para análise de redes / teoria de grafos? Mais concreto - estou procurando conjuntos de dados padrão Gold para comparar / avaliar / aprender:
- medidas de centralidade;
- algoritmos de agrupamento de rede.
Não preciso de uma lista enorme de redes / gráficos publicamente disponíveis, mas de alguns conjuntos de dados realmente obrigatórios.
EDITAR:
É bastante difícil fornecer recursos exatos para o "conjunto de dados padrão ouro", mas aqui estão alguns pensamentos. Eu acho que o conjunto de dados clássico real deve atender a esses critérios:
- Múltiplas referências em artigos e livros didáticos;
- Inclusão em pacotes de software de análise de rede conhecidos;
- Tempo suficiente de existência;
- Utilização em vários cursos de análise de gráficos.
Em relação ao meu campo de interesse, também preciso de classes rotuladas para vértices e / ou "notas de autoridade" pré-computadas (ou predefinidas) (ou seja, estimativas de centralidade). Depois de fazer essa pergunta, continuei pesquisando e aqui estão alguns exemplos adequados:
- Zachary Karate Club : lançado em 1977, citado mais de 1,5 mil vezes (segundo o Google Scholar), os vértices têm o atributo Faction (que pode ser usado para agrupar).
- Rede de colaboração do Erdos : infelizmente, não encontrei essa rede na forma de arquivo de dados, mas é bastante famosa e, se alguém enriquecer a rede com os dados de especializações dos matemáticos, também poderá ser usado para testar algoritmos de agrupamento.
Respostas:
O que você está procurando pode ser encontrado no KONECT (o site está fora do ar enquanto estou escrevendo isso, mas deve ser corrigido em breve!). É quase a coleta de dados mais abrangente para análise de rede. Mas a questão é qual é mais padrão para usar?
Bem, não há uma resposta clara, exceto o Zachary Karate Club!
Se você fizer uma revisão da literatura nos algoritmos de Detecção da comunidade, verá que quase todos os papéis brilhantes usam redes diferentes. Minha sugestão é analisar o que Andrea Lancichinetti e Santo Fortunato fizeram para gráficos de benchmarking. Eles propuseram alguns algoritmos de geração de gráficos de referência, por exemplo, este .
Espero que ajude :)
fonte
Talvez você possa conferir aqui - http://snap.stanford.edu/data/
Para cada conjunto de dados, você também verá referências dos trabalhos em que eles foram usados
fonte
A única coisa que sei são os dados de referência para bancos de dados de gráficos, como o Neo4j.
Você pode encontrar links semelhantes a este: http://istc-bigdata.org/index.php/benchmarking-graph-databases/
onde você pode encontrar dados para testar a análise de rede e a teoria dos grafos.
Além disso, você pode jogar com a API do Twitter / Facebook para coletar seus próprios dados. Essa também é uma sugestão, caso você não encontre os dados que está procurando.
fonte