Suponha que dois grupos, compreendendo e n 2, classifiquem um conjunto de 25 itens do mais ao menos importante. Quais são as melhores maneiras de comparar essas classificações?
Claramente, é possível fazer 25 testes U de Mann-Whitney, mas isso resultaria em 25 resultados para interpretar, o que pode ser muito (e, em uso estrito, levanta questões de múltiplas comparações). Também não está totalmente claro para mim que as fileiras satisfazem todas as suposições deste teste.
Eu também estaria interessado em referências à literatura sobre classificação versus classificação.
Algum contexto: todos esses 25 itens estão relacionados à educação e os dois grupos são tipos diferentes de educadores. Ambos os grupos são pequenos.
EDIT em resposta a @ttnphns:
Não pretendia comparar a classificação total de itens do grupo 1 ao grupo 2 - isso seria uma constante, como aponta @ttnphns. Mas as classificações no grupo 1 e no grupo 2 serão diferentes; isto é, o grupo 1 pode classificar o item 1 mais alto que o grupo 2.
Eu poderia compará-los item a item, obtendo a classificação média ou mediana de cada item e fazendo 25 testes, mas me perguntei se havia alguma maneira melhor de fazer isso.
fonte
the best ways to compare these rankings
- que tipo de diferença entre os dois grupos você gostaria de saber?Respostas:
Sumário
Eu compartilho meus pensamentos na seção Detalhes . Eu acho que eles são úteis para identificar o que realmente queremos alcançar.
Penso que o principal problema aqui é que você não definiu o que significa uma similaridade de classificação. Portanto, ninguém sabe qual método de medir a diferença entre as fileiras é melhor.
Efetivamente, isso nos deixa escolher ambiguamente um método baseado em suposições.
O que eu realmente sugiro é primeiro definir um objetivo de otimização matemática. Só então teremos certeza se realmente sabemos o que queremos.
A menos que façamos isso, realmente não sabemos o que queremos. Poderíamos quase saber o que queremos, mas quase sabendo sabendo .≠
Meu texto em Detalhes é essencialmente um passo em direção a uma definição matemática da semelhança entre as fileiras . Depois de acertarmos isso, podemos avançar com confiança para escolher o melhor método de medir essa semelhança.
Detalhes
Baseado em um de seus comentários:
Para responder a isso enquanto interpreta estritamente o objetivo:
Mas não acho que você realmente queira essa interpretação estrita . Portanto, acho que você realmente quis dizer é:
Mas esse método é adequado? Para responder a isso, vamos ver um pouco mais a fundo:
Ele pressupõe que o custo de cada edição seja linear em relação ao número de saltos. Isso é verdade para o nosso domínio de aplicativo? Será que um relacionamento logístico é mais adequado? Ou um exponencial ?
Depois de abordarmos os pontos acima, e alcançarmos uma medida adequada de similaridade entre duas fileiras, precisaremos fazer perguntas mais interessantes, como:
fonte
Isso soa como o 'teste de classificação assinada de Willcoxon' ( link da wikipedia ). Supondo que os valores de suas fileiras sejam do mesmo conjunto (ou seja,
[1, 25]
), então este é um teste de diferença pareada (com a hipótese nula de que esses pares foram escolhidos aleatoriamente). NB, este é um escore de semelhança!Existem implementações
R
e ambasPython
vinculadas a essa página wiki.fonte
Aviso: é uma ótima pergunta e eu não sei a resposta, então isso é realmente mais um "o que eu faria se precisasse":
Nesse problema, existem muitos graus de liberdade e muitas comparações que se pode fazer, mas com dados limitados, é realmente uma questão de agregar dados com eficiência. Se você não souber qual teste executar, sempre poderá "inventar" um usando permutações:
Primeiro, definimos duas funções:
Função de votação : como pontuar as classificações para que possamos combinar todas as classificações de um único grupo. Por exemplo, você pode atribuir 1 ponto ao item mais bem classificado e 0 a todos os outros. Você estaria perdendo muitas informações, portanto, talvez seja melhor usar algo como: o item melhor classificado recebe 1 ponto, o segundo classificado 2 pontos, etc.
Função de comparação : como comparar duas pontuações agregadas entre dois grupos. Como ambos serão um vetor, seguir uma norma adequada da diferença funcionaria.
Agora faça o seguinte:
O problema é que não sabemos a distribuição da estatística de teste sob o nulo de que ambos os grupos são iguais. Mas, se forem iguais, poderíamos aleatoriamente embaralhar as observações entre os grupos.
Repita o processo cerca de 1000 vezes e agora use as estatísticas de teste de permutação como distribuição nula empírica. Isso permitirá que você calcule um valor p, e não se esqueça de criar um bom histograma e desenhar uma linha para a estatística de teste da seguinte forma:
Mas, dependendo da configuração, espero que possa haver muita aleatoriedade intrínseca e você precisará de um tamanho de amostra bastante grande para que um método abrangente funcione. Se você tem conhecimento prévio sobre coisas específicas que acha que podem ser diferentes entre os dois grupos (por exemplo, itens específicos), use-o para personalizar suas duas funções. (Obviamente, o usual é fazer isso antes de executar o teste e não escolher projetos de cerejeira até obter algo significativo )
PS me mande uma mensagem se você estiver interessado no meu código (confuso). É um pouco longo para adicionar aqui, mas ficaria feliz em enviá-lo.
fonte