Como medir a “abrangência” dos colaboradores da SE?

12

O Stack Exchange, como todos sabemos, é uma coleção de sites de perguntas e respostas com tópicos diversificados. Assumindo que cada site seja independente um do outro, dadas as estatísticas que um usuário possui, como calcular sua "totalidade" em comparação com o próximo cara? Qual é a ferramenta estatística que devo empregar?

Para ser sincero, não sei definir matematicamente a "redondeza", mas ela deve ter as seguintes características:

  1. Todas as coisas são iguais, quanto mais representante um usuário tiver, mais bem-disposto ele será.
  2. Tudo sendo igual, quanto mais sites um usuário participa, mais equilibrado ele é.
  3. Se a resposta ou a pergunta não afeta a redondeza
Graviton
fonte
Como você definiria "bem-arredondamento" no contexto da SE, antes de tudo?
JM não é estatístico
@JM, não sei, é por isso que espero que a comunidade ajude a aprofundar um pouco mais os conceitos.
Graviton 12/05
11
Correndo o risco de parecer uma das polícias do PC - vamos ser inclusivos das mulheres que visitam nosso site. @ Graviton, todas as suas referências são para homens.
Rolando2
O arredondamento definido por um ID do usuário não informa sobre o arredondamento de um colaborador , pois um colaborador pode ter IDs de usuário diferentes para SEs diferentes. Alguns IDs de usuário também podem ser usados ​​por mais de um colaborador (por exemplo, parceiros que compartilham uma conta).
Alexis

Respostas:

7

Você também deve ter em conta a semelhança entre os sites. Alguém que participa do StackOverflow e do Seasoned Advice é mais versátil do que alguém que participa do SO e do CrossValidated, que, por sua vez (eu diria), é mais versátil do que alguém que participa do SO e dos programadores . Sem dúvida, existem muitas maneiras de fazer isso, mas você pode verificar o registro sobreposto para ter uma ideia.

Matt Parker
fonte
11
@ Matt Parker, bons pontos - Se o representante faz parte da métrica, também acho que você precisa ver como o representante foi ganho. Uma pessoa que ganhou seu representante com pequenos ganhos em muitas perguntas / respostas provavelmente seria mais bem-vinda do que uma pessoa que ganhou o mesmo representante em uma única pergunta que obteve uma tonelada de votos positivos.
DQdlM
3
@Kenny Esse é um bom ponto e acho que da maneira que você afirmou que está correto - mas sinto que muitas das perguntas e respostas mais votadas são muitas vezes menos indicativas de experiência, enquanto boas respostas para perguntas técnicas realmente difíceis votos muito baixos.
Matt Parker
11
Confira as respostas do whuber, por exemplo. Suas respostas são uniformemente excelentes, então o que diferencia entre suas respostas altamente cotadas e seus 1 eleitores? Quando olho para o primeiro, vejo respostas excelentes para perguntas que entendo; neste último, respostas soberbas para perguntas que nem começo a grunhir. Portanto, respostas com baixa votação podem ser indicativas de profunda especialização (mas observe: se você está curioso sobre como é um usuário bem-educado do SE, é isso ).
Matt Parker
11
De fato, @Graviton, pode ser aconselhável procurar usuários de vários sites que você considere bem versáteis e ver como eles se saem em suas várias métricas.
Matt Parker
11
@KennyPeanuts, para complementar o argumento de @ acima, parece haver também um número considerável de usuários nos sites SE que respondem a um número tremendo de perguntas, mas com poucos votos positivos. Normalmente, isso também não é indicativo de conhecimento ou de abrangência. (Porém, é uma das estratégias mais fáceis de obter "reputação").
cardeal
6

EXEMPLO: digamos que existem três sites e queremos comparar a abrangência dos Usuários A, B, C. Escrevemos a reputação dos usuários nos três sites em formato vetorial:

Usuário A: [23, 23, 0]

Usuário B: [15, 15, 0]

Usuário C: [10, 10, 10]

Consideraremos A mais abrangente do que B (suas reputações estão distribuídas igualmente em dois sites, mas A tem uma reputação mais total). Além disso, consideraríamos C mais equilibrado que B (eles têm a mesma reputação total, mas C tem uma distribuição uniforme em mais sites). É indeciso se A deve ser considerado mais equilibrado que C ou vice-versa .

Seja , , os vetores de reputação acima, respectivamente.xAxBxC

Queremos medir a "abrangência" de um usuário em função de seu vetor de reputação . Pelo exposto, gostaria que a nossa função para satisfazer , e .f(x)ff(xA)>f(xB)f(xC)>f(xB)

Qualquer , que é côncava e aumentando irá fazer o truque.f(x)

Dois exemplos comuns de funções convexas são a 'norma fracionária'

f([x1,...,xm])=ixip

para .0<p<1

Tomando , calculamosp=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

De acordo com a , o Usuário A seria considerado o mais completo dos três, por uma margem estreita sobre o Usuário C.1/2

Outra opção para é a entropia de Shannon (em escala)f

f([x1,...,xm])=ixilog(xi/c).

onde .c=ixi

Se considerarmos como a entropia de Shannon em escala, calcularemosf

f ( x B ) = 30 log ( 2 ) 20,8 f ( x C ) = 30 log ( 3 ) 33,0

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Medidos de acordo com a entropia de Shannon em escala, diríamos que C é o mais arredondado dos três e A o segundo mais arredondado.

Edição: Eu disse originalmente que a função tinha que ser convexa; O oposto é verdadeiro.f(x)

EDIT2: Adicionado um exemplo à luz do comentário do whuber.

charles.y.zheng
fonte
Na edição: é difícil saber se você está correto ou não, porque não há nada na sua resposta que descreva o papel que desempenha: você nunca o usa nem diz como isso seria aplicado neste problema. f
whuber
(+1) Obrigado pela edição: isso torna a ideia muito mais clara. Você pode fazer o exemplo corresponder às contagens: parece que o exemplo diz respeito a três usuários e três sites, em vez de quatro de cada. BTW, como você determina quais sites usar? Ninguém está ativo em todos, ou mesmo na maioria, dos sites. Isso é um problema porque algumas pessoas obtêm 1 ponto de repetição e outras 101. Se insistimos em que seja constante no intervalo para lidar com isso, é impossível ser côncavo e aumentar para valores maiores ! [ 1 , 101 ] ff[1,101]f
whuber
A norma fracionária é indefinida quando qualquer x_i <0. A entropia de Shannon falha quando qualquer x_i / c ≤ 0. Não faz sentido que uma medida de arredondamento do poço suba repentinamente quando algum x_i muda de 0 para -𝜀.
200_success
4

Essa é uma pergunta muito, muito interessante (na verdade, eu estou um pouco apaixonado pela idéia de modelar os sites de troca de pilhas em geral).

No que diz respeito à abrangência, uma maneira de avaliar isso seria através das tags que determinados usuários tendem a responder e sua distribuição nos sites. Exemplos podem deixar isso mais claro.

Sou membro do TeX, StackOverflow, CrossValidated e AskUbuntu. Agora, eu realmente só contribuo para aqui e o StackOverflow, e apenas sobre o R no Stackoverflow. Portanto, para definir uma boa redundância, analisaria: a) a quantidade de tags que dois sites têm em comum (para definir a similaridade entre sites) e a extensão em que um usuário responde a perguntas em sites que têm pouca ou nenhuma tag em comum.

Se, por exemplo, alguém contribui com as tags Python no StackOverflow e no Cooking, essa pessoa é mais versátil do que alguém que está respondendo a perguntas de software estatístico (por exemplo) nas perguntas sobre estouro e estatísticas aqui.

Espero que isso seja um pouco útil.

richiemorrisroe
fonte
4
(+1) Alguém que está contribuindo para as tags Python no SO e na culinária tem alguns gostos exóticos nos alimentos :-) Ouvi dizer que tem gosto de frango.
whuber
3

Se você definir "bem-arredondado" como "contribuindo para muitos sites diferentes do Stack Exchange", calcularia algumas métricas de contribuição por site. Você pode usar o total de postagens, a média de postagens por dia ou talvez a reputação. Em seguida, observe a distribuição dessa métrica em todos os sites e calcule sua assimetria de alguma maneira que faça sentido.

Em outras palavras, uma pessoa 'bem-arredondada' seria alguém que contribuísse para muitos sites diferentes, enquanto uma pessoa 'não-bem-arredondada' seria alguém que contribuísse principalmente para um site. Você pode melhorar ainda mais isso escalando sua métrica com o total de usuários em todos os sites. ou seja, alguém que contribuiu muito para muitos sites diferentes deve ser considerado mais abrangente do que alguém que não contribuiu com nada para nenhum site. Uma pessoa que nunca usou SE não é muito bem-vinda!

Zach
fonte
1

Já existem muitas boas respostas, então por que mais uma? Isso é principalmente para chamar a atenção para as idéias interessantes discutidas aqui no The n-Category Café . Embora a diversidade na ecologia (e em outros lugares) na maioria das vezes apenas observe a abundância, deve-se também observar o quão similar / diferente as diferentes espécies são.

Ao representar as espécies (ou qualquer outra coisa, como locais de SE ...) como pontos em um espaço métrico, isso leva à generalização da entropia em espaços métricos; veja, por exemplo, A entropia máxima de um espaço métrico de Tom Leinster, Emily Roff . As mesmas idéias podem ser usadas nos sites do SE, observando as tags como pontos em um espaço métrico.

kjetil b halvorsen
fonte