O Stack Exchange, como todos sabemos, é uma coleção de sites de perguntas e respostas com tópicos diversificados. Assumindo que cada site seja independente um do outro, dadas as estatísticas que um usuário possui, como calcular sua "totalidade" em comparação com o próximo cara? Qual é a ferramenta estatística que devo empregar?
Para ser sincero, não sei definir matematicamente a "redondeza", mas ela deve ter as seguintes características:
- Todas as coisas são iguais, quanto mais representante um usuário tiver, mais bem-disposto ele será.
- Tudo sendo igual, quanto mais sites um usuário participa, mais equilibrado ele é.
- Se a resposta ou a pergunta não afeta a redondeza
Respostas:
Você também deve ter em conta a semelhança entre os sites. Alguém que participa do StackOverflow e do Seasoned Advice é mais versátil do que alguém que participa do SO e do CrossValidated, que, por sua vez (eu diria), é mais versátil do que alguém que participa do SO e dos programadores . Sem dúvida, existem muitas maneiras de fazer isso, mas você pode verificar o registro sobreposto para ter uma ideia.
fonte
EXEMPLO: digamos que existem três sites e queremos comparar a abrangência dos Usuários A, B, C. Escrevemos a reputação dos usuários nos três sites em formato vetorial:
Consideraremos A mais abrangente do que B (suas reputações estão distribuídas igualmente em dois sites, mas A tem uma reputação mais total). Além disso, consideraríamos C mais equilibrado que B (eles têm a mesma reputação total, mas C tem uma distribuição uniforme em mais sites). É indeciso se A deve ser considerado mais equilibrado que C ou vice-versa .
Seja , , os vetores de reputação acima, respectivamente.xA xB xC
Queremos medir a "abrangência" de um usuário em função de seu vetor de reputação . Pelo exposto, gostaria que a nossa função para satisfazer , e .f(x) f f(xA)>f(xB) f(xC)>f(xB)
Qualquer , que é côncava e aumentando irá fazer o truque.f(x)
Dois exemplos comuns de funções convexas são a 'norma fracionária'
para .0<p<1
Tomando , calculamosp=1/2
De acordo com a , o Usuário A seria considerado o mais completo dos três, por uma margem estreita sobre o Usuário C.1/2
Outra opção para é a entropia de Shannon (em escala)f
onde .c=∑ixi
Se considerarmos como a entropia de Shannon em escala, calcularemosf
f ( x B ) = 30 log ( 2 ) ≈ 20,8 f ( x C ) = 30 log ( 3 ) ≈ 33,0
Medidos de acordo com a entropia de Shannon em escala, diríamos que C é o mais arredondado dos três e A o segundo mais arredondado.
Edição: Eu disse originalmente que a função tinha que ser convexa; O oposto é verdadeiro.f(x)
EDIT2: Adicionado um exemplo à luz do comentário do whuber.
fonte
Essa é uma pergunta muito, muito interessante (na verdade, eu estou um pouco apaixonado pela idéia de modelar os sites de troca de pilhas em geral).
No que diz respeito à abrangência, uma maneira de avaliar isso seria através das tags que determinados usuários tendem a responder e sua distribuição nos sites. Exemplos podem deixar isso mais claro.
Sou membro do TeX, StackOverflow, CrossValidated e AskUbuntu. Agora, eu realmente só contribuo para aqui e o StackOverflow, e apenas sobre o R no Stackoverflow. Portanto, para definir uma boa redundância, analisaria: a) a quantidade de tags que dois sites têm em comum (para definir a similaridade entre sites) e a extensão em que um usuário responde a perguntas em sites que têm pouca ou nenhuma tag em comum.
Se, por exemplo, alguém contribui com as tags Python no StackOverflow e no Cooking, essa pessoa é mais versátil do que alguém que está respondendo a perguntas de software estatístico (por exemplo) nas perguntas sobre estouro e estatísticas aqui.
Espero que isso seja um pouco útil.
fonte
Se você definir "bem-arredondado" como "contribuindo para muitos sites diferentes do Stack Exchange", calcularia algumas métricas de contribuição por site. Você pode usar o total de postagens, a média de postagens por dia ou talvez a reputação. Em seguida, observe a distribuição dessa métrica em todos os sites e calcule sua assimetria de alguma maneira que faça sentido.
Em outras palavras, uma pessoa 'bem-arredondada' seria alguém que contribuísse para muitos sites diferentes, enquanto uma pessoa 'não-bem-arredondada' seria alguém que contribuísse principalmente para um site. Você pode melhorar ainda mais isso escalando sua métrica com o total de usuários em todos os sites. ou seja, alguém que contribuiu muito para muitos sites diferentes deve ser considerado mais abrangente do que alguém que não contribuiu com nada para nenhum site. Uma pessoa que nunca usou SE não é muito bem-vinda!
fonte
Já existem muitas boas respostas, então por que mais uma? Isso é principalmente para chamar a atenção para as idéias interessantes discutidas aqui no The n-Category Café . Embora a diversidade na ecologia (e em outros lugares) na maioria das vezes apenas observe a abundância, deve-se também observar o quão similar / diferente as diferentes espécies são.
Ao representar as espécies (ou qualquer outra coisa, como locais de SE ...) como pontos em um espaço métrico, isso leva à generalização da entropia em espaços métricos; veja, por exemplo, A entropia máxima de um espaço métrico de Tom Leinster, Emily Roff . As mesmas idéias podem ser usadas nos sites do SE, observando as tags como pontos em um espaço métrico.
fonte