No meu trabalho, estamos comparando classificações previstas versus classificações verdadeiras para alguns conjuntos de dados. Até recentemente, usamos o Kendall-Tau sozinho. Um grupo que trabalha em um projeto semelhante sugeriu que tentássemos usar a gama Goodman-Kruskal e que eles preferissem. Eu queria saber quais eram as diferenças entre os diferentes algoritmos de correlação de classificação.
O melhor que encontrei foi essa resposta , que afirma que Spearman é usado no lugar de correlações lineares usuais e que Kendall-Tau é menos direto e se parece mais com Goodman-Kruskal Gamma. Os dados com os quais estou trabalhando não parecem ter correlações lineares óbvias, e os dados são fortemente distorcidos e fora do normal.
Além disso, Spearman geralmente relata uma correlação mais alta que Kendall-Tau para nossos dados, e eu queria saber o que isso diz sobre os dados especificamente. Eu não sou estatístico, então alguns dos jornais que estou lendo sobre essas coisas me parecem um jargão, desculpe.
Respostas:
Spearman rho vs Kendall tau . Esses dois são tão diferentes computacionalmente que você não pode comparar diretamente suas magnitudes. Spearman geralmente é maior em 1/4 a 1/3 e isso leva a concluir incorretamente que Spearman é "melhor" para um determinado conjunto de dados. A diferença entre rho e tau está em sua ideologia, proporção de variância para rho e probabilidade para tau. Rho é um Pearson r usual aplicado para dados classificados e, como r, é mais sensível a pontos com grandes momentos (ou seja, desvios do centro da nuvem) do que a pontos com pequenos momentos. Portanto, rho é bastante sensível à forma da nuvem após a classificaçãofeito: o coeficiente para uma nuvem rômbica oblonga será maior que o coeficiente para uma nuvem oblonga com halteres (porque as arestas agudas da primeira são grandes momentos). Tau é uma extensão do Gamma e é igualmente sensível a todos os pontos de dados , por isso é menos sensível a peculiaridades na forma da nuvem classificada. Tau é mais "geral" que rho, pois rho é garantido apenas quando você acredita que a relação subjacente (modelo ou funcional na população) entre as variáveis é estritamente monotônica. Enquanto o Tau permite a curva subjacente não monotônica e mede qual "tendência" monotônica, positiva ou negativa, prevalece no geral. Rho é comparável a r em magnitude; tau não é.
Kendall tau como Gamma . Tau é apenas uma forma padronizada de gama. Várias medidas relacionadas têm numerador mas diferem no denominador de normalização :P- Q
onde - número de pares de observações com "concordância", Q - com "inversão"; T x - número de ligações pela variável X, T y - pela variável Y, T x y - pelas duas variáveis; N - número de observações, k - número de valores distintos nessa variável em que esse número é menor.P Q Tx Ty Tx y N k
Assim, tau é diretamente comparável em teoria e magnitude com Gamma. Rho é diretamente comparável em teoria e magnitude com Pearson . A boa resposta de Nick Stauner aqui diz como é possível comparar rho e tau indiretamente.r
Veja também sobre tau e rho.
fonte
Aqui está uma citação de Andrew Gilpin (1993) defendendo o Maurice Kendall sobre o de Spearman por razões teóricas:ρτ ρ
Não posso acrescentar muito sobre Goodman-Kruskal , exceto que ele parece produzir estimativas um pouco maiores que o de Kendall em uma amostra de dados de pesquisas com os quais tenho trabalhado ultimamente ... e, claro, notavelmente estimativas mais baixas do que de Spearman . No entanto, também tentei calcular algumas estimativas parciais (Foraita & Sobotka, 2012), e essas foram mais próximas da parcial do que da parcial ... Porém, demorou bastante tempo de processamento, então vou deixar os testes de simulação ou comparações matemáticas com outra pessoa ... (quem saberia fazê-las ...)τ ρ γ ρ τγ τ ρ γ ρ τ
Como ttnphns implica, você não pode concluir que suas estimativas de são melhores do que suas estimativas de pela magnitude, porque suas escalas diferem (mesmo que os limites não). Gilpin cita Kendall (1962) como descrevendo a razão de para como aproximadamente 1,5 na maior parte da faixa de valores. Eles se aproximam gradualmente à medida que suas magnitudes aumentam, de modo que ambos se aproximam de 1 (ou -1), a diferença se torna infinitesimal. Gilpin dá um agradável grande tabela de valores equivalentes de , , , d , e para fora para o terceiro dígito paraτ ρ τ ρ r r 2 Z r τ rρ τ ρ τ ρ r r2 Zr τ a cada incremento de 0,01 em seu intervalo, exatamente como você esperaria ver na capa de um livro de estatísticas de introdução. Ele baseou esses valores nas fórmulas específicas de Kendall, que são as seguintes:
(simplifiquei esta fórmula para do forma em que Gilpin escreveu, em termos do de Pearson .)ρr
Talvez faça sentido converter seu em umρτ ρ e ver como a mudança computacional afeta sua estimativa de tamanho de efeito. Parece que a comparação indicaria até que ponto os problemas aos quais o de Spearman é mais sensível estão presentes nos seus dados, se houver. Certamente existem métodos mais diretos para identificar cada problema específico individualmente; minha sugestão produziria um tamanho de efeito omnibus rápido e sujo para esses problemas. Se não houver diferença (após corrigir a diferença de escala), pode-se argumentar que não há necessidade de procurar mais por problemas que se aplicam apenas aρρ ρ . Se houver uma diferença substancial, provavelmente é hora de quebrar a lente de aumento para determinar o que é responsável.
Não sei ao certo como as pessoas costumam relatar tamanhos de efeito ao usar o de Kendall (na medida em que infelizmente as pessoas se preocupam em relatar tamanhos de efeito em geral), mas como parece provável que leitores desconhecidos tentariam interpretá-lo na escala de Pearson. , pode ser aconselhável relatar sua estatística e seu tamanho de efeito na escala de usando a fórmula de conversão acima ... ou pelo menos apontar a diferença de escala e dar um grito a Gilpin por sua útil tabela de conversão . r τ rτ r τ r
Referências
Foraita, R. & Sobotka, F. (2012). Validação de modelos gráficos. Pacote gmvalid, v1.23. A rede abrangente de arquivamento R. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf
Gilpin, AR (1993). Tabela para conversão de Tau de Kendall em Rho de Spearman no contexto de medidas de magnitude de efeito para metanálise. Medida educacional e psicológica, 53 (1), 87-92.
Kendall, MG (1962). Métodos de correlação de classificação (3ª ed.). Londres: Griffin.
fonte
fonte
Spearman's ρ is related to the probability of majority concordance among random triplets of observations
em mais detalhes, não muito matematicamente difícil, se possível? Obrigado.