Interpretando a diferença entre a distribuição lognormal e a distribuição de leis de energia (distribuição de graus de rede)

22

Primeiro, eu não sou estatístico. No entanto, tenho feito análise estatística de redes para meu doutorado.

Como parte da análise de rede, plotei uma Função de Distribuição Cumulativa Complementar (CCDF) de graus de rede. O que descobri foi que, diferentemente das distribuições de rede convencionais (por exemplo, WWW), a distribuição é melhor ajustada por uma distribuição lognormal. Tentei ajustá-lo a uma lei de energia e, usando os scripts Matlab de Clauset et al., Descobri que a cauda da curva segue uma lei de energia com um limite.

insira a descrição da imagem aqui

A linha pontilhada representa o ajuste da lei de energia. A linha roxa representa o ajuste log-normal. A linha verde representa ajuste exponencial.

O que estou lutando para entender é o que tudo isso significa? Eu li este artigo de Newman, que aborda um pouco esse tópico: http://arxiv.org/abs/cond-mat/0412004

Abaixo está o meu palpite:

Se a distribuição de graus segue uma distribuição de lei de energia, entendo que isso significa que existe um vínculo preferencial linear na distribuição de links e grau de rede (rich obtém um efeito mais rico ou o processo de Yules).

Estou certo ao dizer que, com a distribuição lognormal que estou testemunhando, existe uma ligação preferencial sublinear no início da curva e se torna mais linear em relação à cauda, ​​onde pode ser ajustada por uma lei de potência?

Além disso, como uma distribuição log-normal ocorre quando o logaritmo da variável aleatória (digamos X) é normalmente distribuído, isso significa que, em uma distribuição log-normal, há mais valores pequenos de X e valores menores de X que um variável aleatória que segue uma distribuição de lei de potência teria?

Mais importante, com relação à distribuição de graus de rede, um anexo preferencial normal de log ainda sugere uma rede sem escala? Meu instinto me diz que, como a cauda da curva pode ser ajustada por uma lei de energia, a rede ainda pode ser concluída como exibindo características sem escala.

Mike
fonte
2
Mike, acho que seria muito interessante ver o enredo que você está vendo. Você se importaria de editar sua resposta para incluí-la? Uma coisa que notei imediatamente é que a implicação em relação às leis de poder e apego preferencial é inversa. Enquanto (alguns) esquemas de vinculação preferenciais geram distribuições de graduação em direito do poder, a implicação inversa não é verdadeira (ou seja, não é a única maneira). Algumas informações sobre o tipo de rede que você está vendo também podem ser úteis. Felicidades.
cardinal
1
Quero dizer apego preferencial é simplesmente outro nome para o efeito "rico fica mais rico", certo? Se for esse o caso, a distribuição de graus de rede linear (lei de energia) é apenas uma das muitas distribuições de graus que podem demonstrar ligação preferencial? Em outras palavras, desde que o gradiente da curva seja negativo em um gráfico log-log, existem alguns elementos de ligação preferencial, independentemente da distribuição? Então, a diferença entre a distribuição de graus log-normal e direito de energia não é tanto se existe apego preferencial, mas a proporcionalidade dele.
22412 Mike
1
Observe que o anexo preferencial é um processo (estocástico) que gera distribuições de graduação em direito da energia para uma rede. A inclinação da linha mudará de acordo com o expoente de escala de uma lei de potência, mas no caso de um lognormal, o gráfico não será linear, mesmo na cauda. O gradiente de uma distribuição de sobrevivência sempre será negativo, independentemente do efeito. (Por quê?)
cardeal
Essa é uma edição muito boa. Obrigado Michael! O ajuste lognormal na região que você mostrou é bastante notável. Parece que pode estar quebrando um pouco na cauda.
cardinal
Obrigado pela sua resposta novamente, cardeal. Então você concorda que o anexo preferencial ainda está em funcionamento na rede que estou observando? Outra questão que surge é se a rede está livre de escala. Se o anexo preferencial estiver em funcionamento na rede e enquanto a rede receber novos membros, a rede poderá ser classificada como sem escala, mesmo que a distribuição do grau da rede não seja linear. É aqui que não tenho muita certeza.
22412 Mike

Respostas:

12

Eu acho que será útil separar a pergunta em duas partes:

  1. Qual é a forma funcional da sua distribuição empírica? e
  2. O que essa forma funcional implica no processo de geração em sua rede?

p>0,1x15p<0,1 significa basicamente fazer a mesma coisa. Você pode rejeitar esse modelo como um processo de geração dos dados de distribuição de grau que você possui? Caso contrário, você poderá colocar o log-normal na categoria "plausível".

x1

A segunda pergunta é realmente mais difícil das duas. Como algumas pessoas apontaram nos comentários acima, existem muitos mecanismos que produzem distribuições da lei do poder e o apego preferencial (em todas as suas variações e glória) é apenas um de muitos. Portanto, observar uma distribuição da lei de poder em seus dados (mesmo uma genuína que passe nos testes estatísticos necessários) não é evidência suficiente para concluir que o processo de geração foi um anexo preferencial. Ou, de maneira mais geral, se você tiver um mecanismo A que produz algum padrão X nos dados (por exemplo, uma distribuição de graus log-normal na sua rede). Observar o padrão X em seus dados não é uma evidência de que eles foram produzidos pelo mecanismo A. Os dados são consistentes com A, mas isso não significa que A é o mecanismo correto.

Para realmente mostrar que A é a resposta, você deve testar diretamente suas suposições mecanicistas e mostrar que elas também são válidas para o seu sistema e, de preferência, também mostrar que outras previsões do mecanismo também são válidas nos dados. Um ótimo exemplo da parte do teste de suposição foi feito por Sid Redner (veja a Figura 4 deste artigo). ), no qual ele mostrou que, para redes de citações, a suposição de anexo preferencial linear realmente mantém os dados.

Finalmente, o termo "rede sem escala" está sobrecarregado na literatura, então eu sugiro fortemente evitá-lo. As pessoas o usam para se referir a redes com distribuição de diplomas de direito do poder ea redes cultivadas por conexão preferencial (linear). Mas, como acabamos de explicar, essas duas coisas não são as mesmas, portanto, usar um único termo para se referir a ambas é apenas confuso. No seu caso, uma distribuição log-normal é completamente inconsistente com o mecanismo de conexão preferencial linear clássico, portanto, se você decidir que log-normal é a resposta para a pergunta 1 (na minha resposta), isso implicaria que sua rede não é ' escala livre 'nesse sentido. O fato de a cauda superior estar 'ok' como uma distribuição da lei de potência não teria sentido nesse caso, pois sempre há uma parte da cauda superior de qualquer distribuição empírica que passará nesse teste (e passará porque o teste perde energia quando não há muitos dados, o que é exatamente o que acontece na extremidade superior extrema).

aaronclauset
fonte
você misturou <e> ao falar sobre o valor p para o ajuste da cauda superior?
David Nathan
As condições de valor p neste comentário estão corretas. Os valores p mencionados aqui vêm da seção 4.1 de arxiv.org/abs/0706.1062 , em que valores grandes representam bons ajustes e valores pequenos representam ajustes ruins. Veja em particular a nota de rodapé 8 na parte inferior da página 17.
Jonathan S.
3

Que pergunta legal. Estou tendo uma conversa relacionada a isso associada a uma pergunta que fiz em outro lugar no CrossValidated. Lá, perguntei se a distribuição gama era uma boa distribuição para usar em uma simulação de uma rede social em que a probabilidade de vínculos é endógena a alguma característica de "popularidade" contínua dos nós. @NickCox sugeriu que eu usasse a distribuição lognormal. Eu respondi que a distribuição lognormal tem alguma justificativa teórica como o processo subjacente que descreve a popularidade porque a popularidade pode ser interpretada como o produto de muitas variáveis ​​aleatórias com valor positivo (por exemplo, riqueza, renda, altura, capacidade sexual, capacidade de lutar, QI). Isso faz mais sentido para mim do que a justificativa teórica da lei do poder e combina com os dados empíricos, o que sugere que a forma da lei do poder é muito inflexível para explicar a variação entre redes na distribuição de graus. O lognormal, em comparação, tem uma forma muito flexível, com o modo se aproximando de zero para alta variação. Além disso, faz sentido que a assimetria da distribuição de graus deva aumentar com a variação devido ao efeito de ligação preferencial.

Em suma, acho que a distribuição lognormal se ajusta melhor aos seus dados porque a distribuição lognormal descreve o processo subjacente de formação da distribuição de graus melhor do que a lei de potência ou distribuições exponenciais.

Equilíbrio Brash
fonte
2

Chegando a este site depois de contar minhas distribuições de bolhas e usar a lei de energia para dados de viscosidade.

Percorrer os exemplos de conjuntos de dados no documento de lei de energia de Clauset et al. eles colocaram alguns horrores reais de conjuntos de dados, longe dos conjuntos de dados da lei de energia para apoiar seus argumentos. Apenas pelo senso comum, certamente não teria tentado ajustar uma função de lei de energia a todo o intervalo de dados para a maioria deles. No entanto, o comportamento de auto-dimensionamento no mundo real pode ser válido em uma parte de um sistema observado, mas é interrompido quando alguma propriedade do sistema atinge um limite físico ou funcional.

Os artigos muito legíveis abaixo se referem ao ajuste da curva de crescimento para ecologistas, com uma boa discussão sobre lei de energia e distribuições relacionadas, com base em modelos de comportamento populacional baseados em observação.

O autor é muito mais pragmático do que Clauset et al. Citação: "... se o objetivo é apenas o melhor ajuste e as escalas fora da janela de escala do conjunto de dados não são discutidas, qualquer modelo pode ser suficiente, uma vez que produz um bom ajuste e não produz máximos ou mínimos dentro da janela de escala estudada . " "Muitas vezes, somos forçados a ajustar o mesmo modelo, como outros pesquisadores aplicaram aos seus dados, para poder comparar valores de parâmetros, mas é possível fazer isso além da aplicação de um modelo ou modelos de ajuste melhores, com melhores expectativas. formas ou ambos. " Palavras repousantes.

Tjørve, E. (2003). Formas e funções das curvas de área de espécies: Uma revisão de possíveis modelos. Journal of Biogeography, 30 (6), 827-835.

Tjørve, E. (2009). Formas e funções das curvas de área de espécies (ii): Uma revisão de novos modelos e parametrizações. Journal of Biogeography, 36 (8), 1435-1445.

TerryW
fonte
1

Os resultados acima mostram que a distribuição de graus pode ser tanto lei de potência quanto lognormal, o que pode sugerir que pequenas propriedades livres de escala e mundo coexistam na rede estudada. Para examinar se a rede está livre de escala (com parâmetro de escala constante) com conexão preferencial, o design experimental é frequentemente necessário. No artigo de Sid Redner mencionado acima, a taxa de crescimento é usada para entender o mecanismo de crescimento. Enquanto Gallos, Song e Makse usam caixas para cobrir a rede e concluem que a distribuição de graus de rede segue a distribuição da lei de energia, se NB (lB) ~ lB ^ -dB. Ou examinando as relações entre coeficiente e grau de cluster (se a relação satisfaz a lei do poder). Caso contrário, é discutido que as redes hierárquicas possuem propriedades de rede livres de pequeno mundo e escala. (digitando a escala Fractal livre,

liandexinshi
fonte