Conjuntos de dados clássicos de análise de rede

10

Existem vários conjuntos de dados clássicos para tarefas de classificação / regressão de aprendizado de máquina. Os mais populares são:

Mas alguém conhece conjuntos de dados semelhantes para análise de redes / teoria de grafos? Mais concreto - estou procurando conjuntos de dados padrão Gold para comparar / avaliar / aprender:

  1. medidas de centralidade;
  2. algoritmos de agrupamento de rede.

Não preciso de uma lista enorme de redes / gráficos publicamente disponíveis, mas de alguns conjuntos de dados realmente obrigatórios.

EDITAR:

É bastante difícil fornecer recursos exatos para o "conjunto de dados padrão ouro", mas aqui estão alguns pensamentos. Eu acho que o conjunto de dados clássico real deve atender a esses critérios:

  • Múltiplas referências em artigos e livros didáticos;
  • Inclusão em pacotes de software de análise de rede conhecidos;
  • Tempo suficiente de existência;
  • Utilização em vários cursos de análise de gráficos.

Em relação ao meu campo de interesse, também preciso de classes rotuladas para vértices e / ou "notas de autoridade" pré-computadas (ou predefinidas) (ou seja, estimativas de centralidade). Depois de fazer essa pergunta, continuei pesquisando e aqui estão alguns exemplos adequados:

  • Zachary Karate Club : lançado em 1977, citado mais de 1,5 mil vezes (segundo o Google Scholar), os vértices têm o atributo Faction (que pode ser usado para agrupar).
  • Rede de colaboração do Erdos : infelizmente, não encontrei essa rede na forma de arquivo de dados, mas é bastante famosa e, se alguém enriquecer a rede com os dados de especializações dos matemáticos, também poderá ser usado para testar algoritmos de agrupamento.
sobach
fonte
11
Eu acho que você poderia melhorar essa questão definindo "conjunto de dados padrão ouro" de uma maneira mais objetiva. O que o torna "must-know"? Deve ser referenciado em vários livros didáticos? Utilizado em vários modelos publicados? Etc. Caso contrário, as respostas serão subjetivas E mudarão com o passar do tempo. Uma má combinação aqui.
Air

Respostas:

5

O que você está procurando pode ser encontrado no KONECT (o site está fora do ar enquanto estou escrevendo isso, mas deve ser corrigido em breve!). É quase a coleta de dados mais abrangente para análise de rede. Mas a questão é qual é mais padrão para usar?

Bem, não há uma resposta clara, exceto o Zachary Karate Club!

Se você fizer uma revisão da literatura nos algoritmos de Detecção da comunidade, verá que quase todos os papéis brilhantes usam redes diferentes. Minha sugestão é analisar o que Andrea Lancichinetti e Santo Fortunato fizeram para gráficos de benchmarking. Eles propuseram alguns algoritmos de geração de gráficos de referência, por exemplo, este .

Espero que ajude :)

Kasra Manshaei
fonte
você pode localizar esta via máquina do tempo, o seu melhor amigo web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/...
albert
4

Talvez você possa conferir aqui - http://snap.stanford.edu/data/

Para cada conjunto de dados, você também verá referências dos trabalhos em que eles foram usados

Alexey Grigorev
fonte
1

A única coisa que sei são os dados de referência para bancos de dados de gráficos, como o Neo4j.

Você pode encontrar links semelhantes a este: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

onde você pode encontrar dados para testar a análise de rede e a teoria dos grafos.

Além disso, você pode jogar com a API do Twitter / Facebook para coletar seus próprios dados. Essa também é uma sugestão, caso você não encontre os dados que está procurando.

adesantos
fonte
Obrigado, mas não é exatamente o que estou procurando. Veja a atualização para mais detalhes.
sobach