Suponha que eu tenha um vetor ordenado em que o primeiro elemento seja o número de visitas a um site em um determinado período de tempo pelo IP exclusivo com o maior número de visitas, o segundo elemento seja o número de visitas pelo IP exclusivo com o segundo maior número de visitas e assim por diante. Eu entendo que pode haver variações por site, mas geralmente existe um padrão assumido para a forma desse vetor? Por exemplo, segue uma distribuição da lei do poder?
14
Respostas:
Não, visitantes únicos de um site não seguem uma lei de energia.
Nos últimos anos, tem havido um rigor crescente no teste de reivindicações da lei de energia (por exemplo, Clauset, Shalizi e Newman 2009). Aparentemente, as alegações anteriores muitas vezes não foram bem testadas e era comum traçar os dados em uma escala log-log e confiar no "teste do globo ocular" para demonstrar uma linha reta. Agora que os testes formais são mais comuns, muitas distribuições acabam não seguindo as leis de energia.
As duas melhores referências que conheço que examinam as visitas de usuários na Web são Ali e Scarr (2007) e Clauset, Shalizi e Newman (2009).
Ali e Scarr (2007) analisaram uma amostra aleatória de cliques de usuários em um site do Yahoo e concluíram:
Aqui está um histograma de cliques de usuários individuais ao longo de um mês e os mesmos dados em um gráfico de log-log, com modelos diferentes comparados. Os dados claramente não estão em uma linha direta de log-log esperada de uma distribuição de energia sem escala.
Clauset, Shalizi e Newman (2009) compararam explicações sobre lei de potência com hipóteses alternativas usando testes de razão de verossimilhança e concluíram que hits e links da web "não podem ser considerados plausivelmente como seguindo uma lei de potência". Seus dados para o primeiro foram acessados pela web por clientes do serviço America Online na Internet em um único dia e, para o último, foram links para sites encontrados em um rastreamento da web de 1997 com cerca de 200 milhões de páginas. As imagens abaixo fornecem as funções de distribuição cumulativa P (x) e seu poder de lei de máxima probabilidade possível.
Para ambos os conjuntos de dados, Clauset, Shalizi e Newman descobriram que as distribuições de energia com conexões exponenciais para modificar a extremidade extrema da distribuição eram claramente melhores do que as distribuições da lei de energia pura e que as distribuições log-normais também eram boas. (Eles também analisaram hipóteses exponenciais exponenciais e ampliadas.)
Se você tem um conjunto de dados em mãos e não é apenas curioso, deve ajustá-lo a modelos diferentes e compará-los (em R: pchisq (2 * (logLik (modelo1) - logLik (modelo2)), df = 1, inferior. cauda = FALSO)). Confesso que não faço ideia de como modelar um modelo ZM ajustado a zero. Ron Pearson publicou um blog sobre distribuições ZM e, aparentemente, existe um pacote R zipfR. Eu provavelmente começaria com um modelo binomial negativo, mas não sou um estatístico real (e adoraria as opiniões deles).
(Eu também quero o segundo comentarista @richiemorrisroe acima, que aponta que os dados provavelmente são influenciados por fatores não relacionados ao comportamento humano individual, como programas que rastreiam a Web e endereços IP que representam os computadores de muitas pessoas.)
Artigos mencionados:
Clauset, Aaron, Cosma Rohilla Shalizi e Mark EJ Newman. "Distribuições da lei do poder em dados empíricos". SIAM review 51.4 (2009): 661-703. (Veja também este site)
Ali, Kamal e Mark Scarr. "Metodologias robustas para modelar distribuições de cliques na web." Anais da 16ª conferência internacional na World Wide Web. ACM, 2007.
fonte