Encontrei este artigo que usa a detecção de anomalias de links para prever tópicos de tendências e achei incrivelmente intrigante: O artigo é "Descobrindo tópicos emergentes em fluxos sociais por meio da detecção de anomalias de links" .
Gostaria de replicá-lo em um conjunto de dados diferente, mas não estou familiarizado o suficiente com os métodos para saber como usá-los. Digamos que eu tenha uma série de instantâneos da rede de nós ao longo de um período de seis meses. Os nós têm uma distribuição de graus de cauda longa, com a maioria tendo apenas algumas conexões, mas algumas tendo muitas. Novos nós aparecem dentro desse período.
Como eu poderia implementar cálculos de probabilidade máxima normalizada com desconto sequencial usados no artigo para detectar links anômalos que eu acho que poderiam ser precursores de uma explosão? Existem outros métodos que seriam mais apropriados?
Eu pergunto teórica e praticamente. Se alguém pudesse me indicar uma maneira de implementar isso em python ou R, isso seria muito útil.
Alguém? Eu sei que vocês, pessoas inteligentes por aí, têm algumas ideias para uma resposta,
Respostas:
Primeiro, você deve apresentar sua definição de pontuação de anomalia para um novo nó (consulte as seções 3.1, 3.2). Felizmente, a correspondência entre uma nova postagem (no caso deles) e um novo nó (no seu caso) é quase individual, pois estamos interessados apenas no conjunto de nós (usuários) em que o nó (post) é relacionado a.
Assim, podemos caracterizar um novo nó pelo número de arestas / conexões k que ele possui e pelo conjunto V dos outros nós aos quais está conectado. Portanto, as equações (1) - (4) podem ser escritas de maneira semelhante. Em seguida, você pode usar o processo de restaurante chinês, conforme descrito no final da subseção 3.1., Depois de introduzir um novo parâmetro . Agora, considerando que você obteve as probabilidades (3), pode obter a pontuação de anomalia de link (7).γ
Pergunte mais, se você tiver dificuldades para seguir as etapas descritas na subseção 3.4., Onde o SDNML é aplicado.
fonte