Comparação de listas classificadas

15

Suponha que dois grupos, compreendendo e n 2, classifiquem um conjunto de 25 itens do mais ao menos importante. Quais são as melhores maneiras de comparar essas classificações?n1n2

Claramente, é possível fazer 25 testes U de Mann-Whitney, mas isso resultaria em 25 resultados para interpretar, o que pode ser muito (e, em uso estrito, levanta questões de múltiplas comparações). Também não está totalmente claro para mim que as fileiras satisfazem todas as suposições deste teste.

Eu também estaria interessado em referências à literatura sobre classificação versus classificação.

Algum contexto: todos esses 25 itens estão relacionados à educação e os dois grupos são tipos diferentes de educadores. Ambos os grupos são pequenos.

EDIT em resposta a @ttnphns:

Não pretendia comparar a classificação total de itens do grupo 1 ao grupo 2 - isso seria uma constante, como aponta @ttnphns. Mas as classificações no grupo 1 e no grupo 2 serão diferentes; isto é, o grupo 1 pode classificar o item 1 mais alto que o grupo 2.

Eu poderia compará-los item a item, obtendo a classificação média ou mediana de cada item e fazendo 25 testes, mas me perguntei se havia alguma maneira melhor de fazer isso.

Peter Flom - Restabelecer Monica
fonte
1
Se cada pessoa classificou 25 itens, a soma entre as 25 variáveis ​​é uma constante (325). Dado isso, o que você quer dizer com dizer the best ways to compare these rankings- que tipo de diferença entre os dois grupos você gostaria de saber?
ttnphns
2
Talvez para calcular a mediana do Kemeny para cada grupo? Eu não fiz isso sozinho e não sei se os dois resultados podem ser comparados estatisticamente (ou seja, com inferência para a população).
ttnphns
1
Outra opção pode ser a medição repetida da regressão ordinal (onde a interação entre o fator de grupo e o fator rm será o seu interesse); isso pode ser feito via modelo GEE com distribuição multinomial e link logit. Mas, novamente, como a soma de 25 itens é uma constante, não posso dizer agora se é matematicamente válido.
ttnphns
2
Eu não tenho o livro comigo, mas "Teoria e Prática de Medição", de D Hand, discute alguns problemas que parecem semelhantes a isso. O que você quer saber em particular sobre a "diferença" na classificação. Por exemplo, você não pode primeiro criar uma classificação agregada para cada grupo e, em seguida, obter a correlação de classificação?
Corone
2
@PeterFlom Você finalmente encontrou uma solução para a comparação de classificação? Se sim, você se importaria de publicá-lo? :)
Mark Heckmann

Respostas:

6

Sumário

Eu compartilho meus pensamentos na seção Detalhes . Eu acho que eles são úteis para identificar o que realmente queremos alcançar.

Penso que o principal problema aqui é que você não definiu o que significa uma similaridade de classificação. Portanto, ninguém sabe qual método de medir a diferença entre as fileiras é melhor.

Efetivamente, isso nos deixa escolher ambiguamente um método baseado em suposições.

O que eu realmente sugiro é primeiro definir um objetivo de otimização matemática. Só então teremos certeza se realmente sabemos o que queremos.

A menos que façamos isso, realmente não sabemos o que queremos. Poderíamos quase saber o que queremos, mas quase sabendo sabendo .

Meu texto em Detalhes é essencialmente um passo em direção a uma definição matemática da semelhança entre as fileiras . Depois de acertarmos isso, podemos avançar com confiança para escolher o melhor método de medir essa semelhança.

Detalhes

Baseado em um de seus comentários:

  • " O objetivo é verificar se as classificações dos dois grupos diferem ", Peter Flom.

Para responder a isso enquanto interpreta estritamente o objetivo:

  • i{1,2,,25}iaibiaiiabib
  • Senão, as fileiras não são diferentes.

Mas não acho que você realmente queira essa interpretação estrita . Portanto, acho que você realmente quis dizer é:

  • ab

ab .

n13ab3 .

Mas esse método é adequado? Para responder a isso, vamos ver um pouco mais a fundo:

  • a,b3c,d123a,bc,dc,d

  • Ele pressupõe que o custo de cada edição seja linear em relação ao número de saltos. Isso é verdade para o nosso domínio de aplicativo? Será que um relacionamento logístico é mais adequado? Ou um exponencial ?

  • 15 . Isso é verdade no seu domínio? Por exemplo, se estamos classificando livros, é discordante na classificação de um livro famoso como o TAOCP, igualmente importante para discordar na classificação de um livro terrível como o TAOUP ?

Depois de abordarmos os pontos acima, e alcançarmos uma medida adequada de similaridade entre duas fileiras, precisaremos fazer perguntas mais interessantes, como:

  • ab
homem das cavernas
fonte
5

Isso soa como o 'teste de classificação assinada de Willcoxon' ( link da wikipedia ). Supondo que os valores de suas fileiras sejam do mesmo conjunto (ou seja,[1, 25] ), então este é um teste de diferença pareada (com a hipótese nula de que esses pares foram escolhidos aleatoriamente). NB, este é um escore de semelhança!

Existem implementações Re ambas Pythonvinculadas a essa página wiki.

danodonovan
fonte
Interessante. Eu não tinha ouvido falar de uma diferença pareada Wilcoxon.
Peter Flom - Restabelece Monica
3

Aviso: é uma ótima pergunta e eu não sei a resposta, então isso é realmente mais um "o que eu faria se precisasse":

Nesse problema, existem muitos graus de liberdade e muitas comparações que se pode fazer, mas com dados limitados, é realmente uma questão de agregar dados com eficiência. Se você não souber qual teste executar, sempre poderá "inventar" um usando permutações:

Primeiro, definimos duas funções:

  • Função de votação : como pontuar as classificações para que possamos combinar todas as classificações de um único grupo. Por exemplo, você pode atribuir 1 ponto ao item mais bem classificado e 0 a todos os outros. Você estaria perdendo muitas informações, portanto, talvez seja melhor usar algo como: o item melhor classificado recebe 1 ponto, o segundo classificado 2 pontos, etc.

  • Função de comparação : como comparar duas pontuações agregadas entre dois grupos. Como ambos serão um vetor, seguir uma norma adequada da diferença funcionaria.

Agora faça o seguinte:

  1. Primeiro, calcule uma estatística de teste calculando a pontuação média usando a função de votação para cada item nos dois grupos, isso deve levar a dois vetores de tamanho 25.
  2. Em seguida, compare os dois resultados usando a função de comparação, esta será sua estatística de teste.

O problema é que não sabemos a distribuição da estatística de teste sob o nulo de que ambos os grupos são iguais. Mas, se forem iguais, poderíamos aleatoriamente embaralhar as observações entre os grupos.

n1

Repita o processo cerca de 1000 vezes e agora use as estatísticas de teste de permutação como distribuição nula empírica. Isso permitirá que você calcule um valor p, e não se esqueça de criar um bom histograma e desenhar uma linha para a estatística de teste da seguinte forma:

histogram permutation test l1

l1l1l2

histogram permutation test l2

Mas, dependendo da configuração, espero que possa haver muita aleatoriedade intrínseca e você precisará de um tamanho de amostra bastante grande para que um método abrangente funcione. Se você tem conhecimento prévio sobre coisas específicas que acha que podem ser diferentes entre os dois grupos (por exemplo, itens específicos), use-o para personalizar suas duas funções. (Obviamente, o usual é fazer isso antes de executar o teste e não escolher projetos de cerejeira até obter algo significativo )

PS me mande uma mensagem se você estiver interessado no meu código (confuso). É um pouco longo para adicionar aqui, mas ficaria feliz em enviá-lo.

Sven
fonte
Eu realmente gosto dessa ideia.
Peter Flom - Restabelece Monica