Por que os parâmetros paramétricos de Pearson e Spearman não são paramétricos

19

Aparentemente, o coeficiente de correlação de Pearson é paramétrico e o rho de Spearman não é paramétrico.

Estou tendo problemas para entender isso. Pelo que entendi, Pearson é calculado como e Spearman é calculado da mesma maneira, exceto que substituímos todos os valores por suas fileiras.

rxy=cov(X,Y)σxσy

Wikipedia diz

A diferença entre o modelo paramétrico e o não paramétrico é que o primeiro possui um número fixo de parâmetros, enquanto o segundo aumenta o número de parâmetros com a quantidade de dados de treinamento.

Mas não vejo nenhum parâmetro, exceto as próprias amostras. Alguns dizem que testes paramétricos assumem distribuições normais e continuam dizendo que Pearson assume dados distribuídos normais, mas não vejo por que Pearson exigiria isso.

Então, minha pergunta é o que significam paramétricos e não paramétricos no contexto da estatística? E como Pearson e Spearman se encaixam lá?

user2740
fonte
6
É uma boa pergunta e há muita desinformação por aí. Por exemplo, a equação dos testes paramétricos e a suposição de distribuições normais são infelizmente uma confusão frequente, na qual muitos escritores de livros didáticos, professores de cursos e pôsteres da internet apenas copiam de outros que estão mais ou menos confusos.
Nick Cox
5
Talvez a resolução positiva mais simples da questão seja a seguinte: sim, a correlação de Spearman é um parâmetro a ser estimado para quantificar a força de um relacionamento e, portanto, se assemelha a Pearson (na raiz, é a mesma idéia, como você aponta); mas não, a correlação de Spearman não é um parâmetro que aparece em uma distribuição, enquanto a de Pearson é um parâmetro em uma distribuição normal bivariada (uma interpretação histórica, mas agora subestimada, do que você está fazendo quando faz correlação). É uma boa distinção, a ser entendida ao ver que a palavra "parâmetro" tem vários sentidos.
Nick Cox
@ NickCox, por que você não publica isso como resposta.
Richard Hardy
5
O ponto sobre a normalidade da distribuição realmente só se manifesta quando você deseja fazer testes de significância com correlação. Se você usar correlações apenas como medidas descritivas, a não normalidade não precisará ser uma barreira para o uso de correlações. As correlações podem até ser um pouco úteis com duas variáveis ​​binárias, desde que as duas variem. Você ainda precisa tomar cuidado com os efeitos de valores atípicos, etc., etc.
Nick Cox
1
Como ainda não parece ter sido dito claramente, gostaria de enfatizar que nenhuma estatística é "paramétrica". É como dizer que os números são saborosos: o adjetivo simplesmente não se aplica ao substantivo. Os modelos estatísticos podem ser paramétricos (conforme indicado pela citação da Wikipedia), bem como os testes e procedimentos que são baseados neles. As estatísticas de Spearman e Pearson podem ser usadas em configurações paramétricas e não paramétricas. Mais sobre isso em stats.stackexchange.com/questions/67204 . O que torna um modelo paramétrico é o seu espaço de estado .
whuber

Respostas:

17

O problema é que "não paramétrico" realmente tem dois significados distintos atualmente. A definição na Wikipedia se aplica a coisas como ajuste de curvas não paramétricas, por exemplo, por splines ou regressão local. O outro significado, que é mais antigo, é mais parecido com "livre de distribuição" - isto é, técnicas que podem ser aplicadas independentemente da distribuição assumida dos dados. O último é o que se aplica ao rho de Spearman, uma vez que a transformação de classificação implica que ele dará o mesmo resultado, independentemente da sua distribuição original.

Hong Ooi
fonte
2
Não paramétrico tem dois significados, mas o comentário na wikipedia realmente se aplica a ambos. Na regressão não paramétrica, refere-se ao relacionamento não ser finito-paramétrico. No lado "livre de distribuição", refere-se aos modelos distributivos que não são paramétricos-finitos.
Glen_b -Reintegra Monica
1
Hum, essa citação da Wikipedia não sou eu. Alguém o adicionou.
Hong Ooi
2
A edição principal - que acredito estar incorreta em um detalhe e não acrescenta nada de especialmente útil - foi revisada, pois foi feita por um usuário com baixa reputação e foi rejeitada por uma pessoa, mas foi aceita automaticamente quando uma terceira pessoa tentou editar para aprimorá-lo (eles podem não ter percebido que isso seria uma consequência). Vou rever essa edição de volta ao seu original. Você pode fazer isso sempre que houver uma edição da qual não goste.
Glen_b -Reinstala Monica
Agora, voltei para a sua postagem original, pois acho que ela mudou muito sem postar seu acordo e não parece que você concorda. Se houver algo que você tenha gostado, clique no link "editado ... atrás" acima do meu nome e copie as partes que você gosta do que estava lá antes, depois edite e cole-o.
Glen_b -Reinstate Monica
Quando é justificado o uso do Spearman? Como a Pearson pode ajudar quando você usa o Spearman?
Léo Léopold Hertz,
3

Eu acho que a única razão pela qual o coeficiente de correlação de Pearson seria chamado de paramétrico é porque você pode usá-lo para estimar os parâmetros da distribuição normal multivariada. por exemplo, a distribuição normal bivariada possui 5 parâmetros: duas médias, duas variações e o coeficiente de correlação. O último pode ser estimado com o coeficiente de correlação de Pearson.

ρ

Aksakal
fonte
não é o parâmetro do coeficiente de correlação de pearson no sentido de que você deve assumir a normalidade para testar seu significado? isto é, ele não assume normalidade como estatística, mas você assume que os dados são normais ao calcular a distribuição do coeficiente de correlação da amostra e testá-lo? Esta é uma pergunta honesta, posso estar 100% errado.
09
Você pode explicar por favor se você faz alguma suposição de distribuição no sperman e no kendall?
Léo Léopold Hertz,
@mugen, você não precisa assumir a normalidade para testar a significância de uma correlação de Pearson; um teste comum de correlação de Pearson faz isso. Você pode fazer uma suposição paramétrica diferente e criar um teste diferente ... ou, de fato, pode-se executar um teste de permutação nulo de que a correlação de Pearson da população é zero, resultando em um teste não paramétrico.
Glen_b
0

Acho que a resposta mais simples é que o teste rho de Spearmen usa dados ordinais (números que podem ser classificados, mas não informam nada sobre o intervalo entre os números, por exemplo, 3 sabores de sorvete são classificados 1, 2 e 3, mas isso apenas indica quais o sabor era preferido e não quanto). Dados ordinais não podem ser usados ​​em testes paramétricos.

O teste r de Pearson usa dados de intervalo ou razão (números que têm intervalos fixos, por exemplo, segundos, kg, mm). 1 mm não é apenas menor que 5 mm, mas você sabe exatamente quanto. esse tipo de dado pode ser usado em um teste paramétrico.

Julian Keenlyside
fonte
1
Certamente é possível usar modelos paramétricos - e, portanto, testes paramétricos - com dados ordinais. É preciso simplesmente propor uma distribuição para essa variável com um número finito - e fixo - de parâmetros, e alguma hipótese adequada em relação a esses parâmetros e pronto , existe um teste paramétrico. A correlação de Pearson calculada em situações em que uma ou ambas as variáveis ​​têm duas categorias (rotuladas com dois números diferentes, geralmente 0/1) resultam em medidas de associação comumente usadas para essas situações.
Glen_b -Reinstala Monica