Primeiro, eu não sou estatístico. No entanto, tenho feito análise estatística de redes para meu doutorado.
Como parte da análise de rede, plotei uma Função de Distribuição Cumulativa Complementar (CCDF) de graus de rede. O que descobri foi que, diferentemente das distribuições de rede convencionais (por exemplo, WWW), a distribuição é melhor ajustada por uma distribuição lognormal. Tentei ajustá-lo a uma lei de energia e, usando os scripts Matlab de Clauset et al., Descobri que a cauda da curva segue uma lei de energia com um limite.
A linha pontilhada representa o ajuste da lei de energia. A linha roxa representa o ajuste log-normal. A linha verde representa ajuste exponencial.
O que estou lutando para entender é o que tudo isso significa? Eu li este artigo de Newman, que aborda um pouco esse tópico: http://arxiv.org/abs/cond-mat/0412004
Abaixo está o meu palpite:
Se a distribuição de graus segue uma distribuição de lei de energia, entendo que isso significa que existe um vínculo preferencial linear na distribuição de links e grau de rede (rich obtém um efeito mais rico ou o processo de Yules).
Estou certo ao dizer que, com a distribuição lognormal que estou testemunhando, existe uma ligação preferencial sublinear no início da curva e se torna mais linear em relação à cauda, onde pode ser ajustada por uma lei de potência?
Além disso, como uma distribuição log-normal ocorre quando o logaritmo da variável aleatória (digamos X) é normalmente distribuído, isso significa que, em uma distribuição log-normal, há mais valores pequenos de X e valores menores de X que um variável aleatória que segue uma distribuição de lei de potência teria?
Mais importante, com relação à distribuição de graus de rede, um anexo preferencial normal de log ainda sugere uma rede sem escala? Meu instinto me diz que, como a cauda da curva pode ser ajustada por uma lei de energia, a rede ainda pode ser concluída como exibindo características sem escala.
Respostas:
Eu acho que será útil separar a pergunta em duas partes:
A segunda pergunta é realmente mais difícil das duas. Como algumas pessoas apontaram nos comentários acima, existem muitos mecanismos que produzem distribuições da lei do poder e o apego preferencial (em todas as suas variações e glória) é apenas um de muitos. Portanto, observar uma distribuição da lei de poder em seus dados (mesmo uma genuína que passe nos testes estatísticos necessários) não é evidência suficiente para concluir que o processo de geração foi um anexo preferencial. Ou, de maneira mais geral, se você tiver um mecanismo A que produz algum padrão X nos dados (por exemplo, uma distribuição de graus log-normal na sua rede). Observar o padrão X em seus dados não é uma evidência de que eles foram produzidos pelo mecanismo A. Os dados são consistentes com A, mas isso não significa que A é o mecanismo correto.
Para realmente mostrar que A é a resposta, você deve testar diretamente suas suposições mecanicistas e mostrar que elas também são válidas para o seu sistema e, de preferência, também mostrar que outras previsões do mecanismo também são válidas nos dados. Um ótimo exemplo da parte do teste de suposição foi feito por Sid Redner (veja a Figura 4 deste artigo). ), no qual ele mostrou que, para redes de citações, a suposição de anexo preferencial linear realmente mantém os dados.
Finalmente, o termo "rede sem escala" está sobrecarregado na literatura, então eu sugiro fortemente evitá-lo. As pessoas o usam para se referir a redes com distribuição de diplomas de direito do poder ea redes cultivadas por conexão preferencial (linear). Mas, como acabamos de explicar, essas duas coisas não são as mesmas, portanto, usar um único termo para se referir a ambas é apenas confuso. No seu caso, uma distribuição log-normal é completamente inconsistente com o mecanismo de conexão preferencial linear clássico, portanto, se você decidir que log-normal é a resposta para a pergunta 1 (na minha resposta), isso implicaria que sua rede não é ' escala livre 'nesse sentido. O fato de a cauda superior estar 'ok' como uma distribuição da lei de potência não teria sentido nesse caso, pois sempre há uma parte da cauda superior de qualquer distribuição empírica que passará nesse teste (e passará porque o teste perde energia quando não há muitos dados, o que é exatamente o que acontece na extremidade superior extrema).
fonte
Que pergunta legal. Estou tendo uma conversa relacionada a isso associada a uma pergunta que fiz em outro lugar no CrossValidated. Lá, perguntei se a distribuição gama era uma boa distribuição para usar em uma simulação de uma rede social em que a probabilidade de vínculos é endógena a alguma característica de "popularidade" contínua dos nós. @NickCox sugeriu que eu usasse a distribuição lognormal. Eu respondi que a distribuição lognormal tem alguma justificativa teórica como o processo subjacente que descreve a popularidade porque a popularidade pode ser interpretada como o produto de muitas variáveis aleatórias com valor positivo (por exemplo, riqueza, renda, altura, capacidade sexual, capacidade de lutar, QI). Isso faz mais sentido para mim do que a justificativa teórica da lei do poder e combina com os dados empíricos, o que sugere que a forma da lei do poder é muito inflexível para explicar a variação entre redes na distribuição de graus. O lognormal, em comparação, tem uma forma muito flexível, com o modo se aproximando de zero para alta variação. Além disso, faz sentido que a assimetria da distribuição de graus deva aumentar com a variação devido ao efeito de ligação preferencial.
Em suma, acho que a distribuição lognormal se ajusta melhor aos seus dados porque a distribuição lognormal descreve o processo subjacente de formação da distribuição de graus melhor do que a lei de potência ou distribuições exponenciais.
fonte
Chegando a este site depois de contar minhas distribuições de bolhas e usar a lei de energia para dados de viscosidade.
Percorrer os exemplos de conjuntos de dados no documento de lei de energia de Clauset et al. eles colocaram alguns horrores reais de conjuntos de dados, longe dos conjuntos de dados da lei de energia para apoiar seus argumentos. Apenas pelo senso comum, certamente não teria tentado ajustar uma função de lei de energia a todo o intervalo de dados para a maioria deles. No entanto, o comportamento de auto-dimensionamento no mundo real pode ser válido em uma parte de um sistema observado, mas é interrompido quando alguma propriedade do sistema atinge um limite físico ou funcional.
Os artigos muito legíveis abaixo se referem ao ajuste da curva de crescimento para ecologistas, com uma boa discussão sobre lei de energia e distribuições relacionadas, com base em modelos de comportamento populacional baseados em observação.
O autor é muito mais pragmático do que Clauset et al. Citação: "... se o objetivo é apenas o melhor ajuste e as escalas fora da janela de escala do conjunto de dados não são discutidas, qualquer modelo pode ser suficiente, uma vez que produz um bom ajuste e não produz máximos ou mínimos dentro da janela de escala estudada . " "Muitas vezes, somos forçados a ajustar o mesmo modelo, como outros pesquisadores aplicaram aos seus dados, para poder comparar valores de parâmetros, mas é possível fazer isso além da aplicação de um modelo ou modelos de ajuste melhores, com melhores expectativas. formas ou ambos. " Palavras repousantes.
Tjørve, E. (2003). Formas e funções das curvas de área de espécies: Uma revisão de possíveis modelos. Journal of Biogeography, 30 (6), 827-835.
Tjørve, E. (2009). Formas e funções das curvas de área de espécies (ii): Uma revisão de novos modelos e parametrizações. Journal of Biogeography, 36 (8), 1435-1445.
fonte
Os resultados acima mostram que a distribuição de graus pode ser tanto lei de potência quanto lognormal, o que pode sugerir que pequenas propriedades livres de escala e mundo coexistam na rede estudada. Para examinar se a rede está livre de escala (com parâmetro de escala constante) com conexão preferencial, o design experimental é frequentemente necessário. No artigo de Sid Redner mencionado acima, a taxa de crescimento é usada para entender o mecanismo de crescimento. Enquanto Gallos, Song e Makse usam caixas para cobrir a rede e concluem que a distribuição de graus de rede segue a distribuição da lei de energia, se NB (lB) ~ lB ^ -dB. Ou examinando as relações entre coeficiente e grau de cluster (se a relação satisfaz a lei do poder). Caso contrário, é discutido que as redes hierárquicas possuem propriedades de rede livres de pequeno mundo e escala. (digitando a escala Fractal livre,
fonte