Recebo essa pergunta com bastante frequência no meu trabalho de consultoria estatística, que pensei em publicá-la aqui. Eu tenho uma resposta, que é postada abaixo, mas eu queria ouvir o que os outros têm a dizer.
Pergunta: Se você tem duas variáveis que normalmente não são distribuídas, você deve usar o rho de Spearman para a correlação?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
fonte
fonte
Respostas:
A correlação de Pearson é uma medida da relação linear entre duas variáveis aleatórias contínuas. Não assume normalidade, embora assuma variações finitas e covariância finita. Quando as variáveis são normais bivariadas, a correlação de Pearson fornece uma descrição completa da associação.
A correlação de Spearman se aplica a classificações e, portanto, fornece uma medida de uma relação monotônica entre duas variáveis aleatórias contínuas. Também é útil com dados ordinais e é robusto para valores discrepantes (ao contrário da correlação de Pearson).
A distribuição de qualquer um dos coeficientes de correlação dependerá da distribuição subjacente, embora ambos sejam assintoticamente normais por causa do teorema do limite central.
fonte
Não esqueça o tau de Kendall ! Roger Newson defendeu a superioridade da Kendall τ a mais de Spearman de correlação r S como uma medida baseada em posto de correlação em um artigo cujo texto completo está agora disponível gratuitamente on-line:
Newson R. Parâmetros por trás das estatísticas "não paramétricas": tau de Kendall, D de Somers e diferenças médias . Stata Journal 2002; 2 (1): 45-64.
Ele refere (na pág. 47) Kendall & Gibbons (1990) como argumentando que "... os intervalos de confiança para r S de Spearman são menos confiáveis e menos interpretáveis do que os intervalos de confiança para os parâmetros τ de Kendall, mas a amostra r S de Spearman é muito mais fácil. calculado sem um computador "(que não é mais de muita importância, é claro). Infelizmente, não tenho acesso fácil a uma cópia do livro deles:
Kendall, MG e JD Gibbons. 1990. Rank Correlation Methods . 5a ed. Londres: Griffin.
fonte
De uma perspectiva aplicada, estou mais preocupado em escolher uma abordagem que resuma o relacionamento entre duas variáveis de uma forma que se alinhe à minha pergunta de pesquisa. Penso que determinar um método para obter erros padrão precisos e valores-p é uma questão que deve vir em segundo lugar. Mesmo se você optar por não confiar em assintóticos, sempre há a opção de iniciar ou alterar suposições distributivas.
Como regra geral, prefiro a correlação de Pearson porque (a) geralmente se alinha mais com meus interesses teóricos; (b) permite uma comparabilidade mais direta dos resultados entre os estudos, porque a maioria dos estudos na minha área relata a correlação de Pearson; e (c) em muitos contextos, há uma diferença mínima entre os coeficientes de correlação de Pearson e Spearman.
No entanto, há situações em que acho que a correlação de Pearson sobre variáveis brutas é enganosa.
Nos dois casos acima, eu aconselharia os pesquisadores a considerar estratégias de ajuste (por exemplo, transformações, remoção / ajuste de outlier) antes de aplicar a correlação de Pearson ou usar o rho de Spearman.
fonte
Atualizada
A pergunta nos pede para escolher entre o método de Pearson e Spearman quando a normalidade é questionada. Restringido a essa preocupação, acho que o documento a seguir deve informar a decisão de qualquer pessoa:
É bastante agradável e fornece uma pesquisa da literatura considerável, ao longo de décadas, sobre esse tópico - a partir das "superfícies mutiladas e distorcidas" de Pearson e da robustez da distribuição de . Pelo menos parte da natureza contraditória dos "fatos" é que grande parte desse trabalho foi feita antes do advento do poder da computação - o que complicou as coisas porque o tipo de não normalidade tinha que ser considerado e era difícil de examinar sem simulações.r
A análise de Kowalski conclui que a distribuição de não é robusta na presença de não normalidade e recomenda procedimentos alternativos. O artigo inteiro é bastante informativo e é uma leitura recomendada, mas pule para uma breve conclusão no final do artigo para um resumo.r
Se for solicitado que você escolha entre Spearman e Pearson quando a normalidade for violada, vale a pena defender a alternativa gratuita de distribuição, ou seja, o método de Spearman.
Anteriormente ..
A correlação de Spearman é uma medida de correlação baseada em classificação; não é paramétrico e não se baseia em uma suposição de normalidade.
A distribuição amostral da correlação de Pearson assume normalidade; em particular, isso significa que, embora você possa calcular, as conclusões baseadas em testes de significância podem não ser válidas.
Como Rob aponta nos comentários, com uma amostra grande, isso não é um problema. Porém, com amostras pequenas, onde a normalidade é violada, a correlação de Spearman deve ser preferida.
Atualização Analisando os comentários e as respostas, parece-me que isso se resume ao debate não-paramétrico versus testes paramétricos usuais. Grande parte da literatura, por exemplo, em bioestatística, não lida com grandes amostras. Geralmente não sou descuidado ao confiar em assintóticos. Talvez isso seja justificado neste caso, mas isso não é fácil para mim.
fonte