O que significa quando todas as arestas em uma rede / gráfico do mundo real têm estatisticamente a mesma probabilidade de acontecer por acaso?

11

Eu tenho usado o método de extração de rede de backbone descrito neste documento: http://www.pnas.org/content/106/16/6483.abstract

Basicamente, os autores propõem um método baseado em estatística que produz uma probabilidade, para cada aresta no gráfico, de que a aresta possa ter acontecido apenas por acaso. Eu uso o ponto de corte de significância estatística típico de 0,05.

Eu tenho aplicado esse método a várias redes do mundo real e, curiosamente, algumas redes acabam sem arestas tão significativas. Estou tentando entender o que isso implica para a rede. A única outra vez em que apliquei o método a uma rede e não tive arestas tão significativas foi quando apliquei o método em redes aleatórias geradas, o que é exatamente o que esperávamos.

Como exemplo de rede do mundo real, você pode ter visto a recente visualização de rede que The Economist mostra a polarização do Senado dos EUA nos últimos 25 anos: http://www.economist.com/news/united-states/21591190 ameba-estados-unidos . Apliquei o método de extração de rede de backbone a essas redes e nenhuma borda foi tão significativa. Embora as arestas brutas aparentemente mostrem anexos e agrupamentos preferenciais, isso é apenas por acaso? A rede de votação do Senado é essencialmente aleatória?

Randy Olson
fonte

Respostas:

6

A hipótese nula por trás dos métodos de backbone é

[Os] pesos normalizados que correspondem às conexões de um certo nó de grau k são produzidos por uma atribuição aleatória a partir de uma distribuição uniforme.

Se não houver arestas "significativas", a hipótese nula é válida para todo o gráfico, ou seja, os pesos das arestas resultam de propensões nodais para enviar e receber laços.

Dependendo dos relacionamentos que você está analisando, o método de backbone pode não ser apropriado. O método funciona melhor para redes que são conceitualmente redes ponderadas de modo único. As redes de dois modos podem ser projetadas como uma rede de modo único ponderada, mas geralmente não faz sentido fazê-lo.

Com base no seu exemplo no Economist, não faz sentido analisar a votação no Senado como uma rede de modo único ponderada pelo número de votos compartilhados. A votação no Senado é uma relação de dois modos assinada. Os senadores (i) mantêm relações com uma parte da legislação (j) e se abstêm de votar (0) ou votam a favor de (+1) ou contra (-1) a legislação. Para transformar a rede em uma rede de contrato monomodo ponderada, em seguida, realizar uma análise de backbone nela seria uma severa redução de dados. Algumas leis são mais politicamente divisórias e algumas têm mais votos do que outras - os métodos de espinha dorsal não captariam esses mecanismos.

Você pode considerar os testes de Gráfico Uniforme Condicional (CUG) em vez de métodos de backbone. A idéia por trás desses testes é determinar se certas propriedades no nível do gráfico (por exemplo, clustering, comprimento médio do caminho, centralização, homofilia) resultam do acaso. O processo é como se segue:

  1. Faça a medição f do gráfico observado
  2. Gere um gráfico aleatório que controla certas propriedades do gráfico observado (por exemplo, tamanho, número de arestas, distribuição de graus, etc.)
  3. Faça a medição f do gráfico aleatório
  4. Repita as etapas 2 e 3 várias vezes (por exemplo, 1000) para produzir uma distribuição nula
  5. Compare a medida observada com a distribuição nula

Para redes de dois modos, faria sentido criar o gráfico aleatório permutando o gráfico observado (tnet e statnet em R têm rotinas para permitir redes de dois modos). Se a medição f exigir uma rede de modo único, o processo de randomização deve ser realizado na rede de dois modos antes de projetá-la como uma rede de modo único.

BenjaminLind
fonte
4

No artigo que você cita, os autores consideram que, em uma rede complexa, "os nós representam os elementos do sistema [modelado] e as arestas ponderadas identificam a presença de uma interação e sua força relativa" (ênfase minha) .

Na rede que você estuda, se eu entendi corretamente o artigo da Economist, há um vínculo entre dois senadores se eles votaram da mesma forma pelo menos 100 vezes. Portanto, os links não modelam interações, mas sim similaridades (entre o comportamento de voto dos senadores). Pela minha experiência, as redes de similaridade não exibem a mesma distribuição de graus que as redes de interação, no sentido em que não é tão heterogêneo. Além disso, o parâmetro de limite usado ao extrair a rede (aqui: 100) às vezes tem um forte efeito na distribuição de graus.

Além disso, não consegui encontrar a menção de nenhum peso no artigo da Economist. No entanto, a presença de pesos parece ser um ponto importante no método descrito no trabalho de Ángeles Serrano et al . você cita na sua pergunta.

A partir dessas duas observações, parece possível que o método não funcione com precisão nesses dados porque não foi projetado para processar redes desse tipo. Talvez você possa verificar a distribuição de graus: ela está centrada em um valor característico ou heterogêneo? E quanto aos pesos, existem?

Vincent Labatut
fonte
Eu mesmo reproduzi os dados do site de origem, então incluí pesos e não apliquei o limite de corte arbitrário. Portanto, acho que os dados aos quais apliquei o método de backbone não deveriam ter sido afetados por esses problemas. Boa idéia para verificar a distribuição do diploma - vou dar uma olhada!
Randy Olson