Aparentemente, o coeficiente de correlação de Pearson é paramétrico e o rho de Spearman não é paramétrico.
Estou tendo problemas para entender isso. Pelo que entendi, Pearson é calculado como e Spearman é calculado da mesma maneira, exceto que substituímos todos os valores por suas fileiras.
Wikipedia diz
A diferença entre o modelo paramétrico e o não paramétrico é que o primeiro possui um número fixo de parâmetros, enquanto o segundo aumenta o número de parâmetros com a quantidade de dados de treinamento.
Mas não vejo nenhum parâmetro, exceto as próprias amostras. Alguns dizem que testes paramétricos assumem distribuições normais e continuam dizendo que Pearson assume dados distribuídos normais, mas não vejo por que Pearson exigiria isso.
Então, minha pergunta é o que significam paramétricos e não paramétricos no contexto da estatística? E como Pearson e Spearman se encaixam lá?
fonte
Respostas:
O problema é que "não paramétrico" realmente tem dois significados distintos atualmente. A definição na Wikipedia se aplica a coisas como ajuste de curvas não paramétricas, por exemplo, por splines ou regressão local. O outro significado, que é mais antigo, é mais parecido com "livre de distribuição" - isto é, técnicas que podem ser aplicadas independentemente da distribuição assumida dos dados. O último é o que se aplica ao rho de Spearman, uma vez que a transformação de classificação implica que ele dará o mesmo resultado, independentemente da sua distribuição original.
fonte
Eu acho que a única razão pela qual o coeficiente de correlação de Pearson seria chamado de paramétrico é porque você pode usá-lo para estimar os parâmetros da distribuição normal multivariada. por exemplo, a distribuição normal bivariada possui 5 parâmetros: duas médias, duas variações e o coeficiente de correlação. O último pode ser estimado com o coeficiente de correlação de Pearson.
fonte
Acho que a resposta mais simples é que o teste rho de Spearmen usa dados ordinais (números que podem ser classificados, mas não informam nada sobre o intervalo entre os números, por exemplo, 3 sabores de sorvete são classificados 1, 2 e 3, mas isso apenas indica quais o sabor era preferido e não quanto). Dados ordinais não podem ser usados em testes paramétricos.
O teste r de Pearson usa dados de intervalo ou razão (números que têm intervalos fixos, por exemplo, segundos, kg, mm). 1 mm não é apenas menor que 5 mm, mas você sabe exatamente quanto. esse tipo de dado pode ser usado em um teste paramétrico.
fonte