Se a regressão linear está relacionada à correlação de Pearson, existem técnicas de regressão relacionadas às correlações de Kendall e Spearman?

27

Talvez essa pergunta seja ingênua, mas:

Se a regressão linear está intimamente relacionada ao coeficiente de correlação de Pearson, existem técnicas de regressão intimamente relacionadas aos coeficientes de correlação de Kendall e Spearman?

regression correlation pearson-r spearman-rho kendall-tau Miroslav Sabo
fonte

3

Como um exemplo simples, onde você tem uma variável explicativa e uma variável dependente: uma regressão linear das fileiras de

e

produziria o coeficiente de correlação de Spearman como coeficiente de regressão. E neste caso,

e

são intercambiáveis na regressão.

x

$x$

y

$y$

x

$x$

y

$y$

COOLSerdash

2

Apenas alguns pensamentos.

de Kendall e

de Spearman são ambos coeficientes de correlação baseados em classificações. O relacionamento procurado entre

e

precisaria envolver suas fileiras. No entanto, o cálculo das fileiras introduz dependência entre as observações, que por sua vez impõe dependência entre os termos do erro, eliminando a regressão linear. No entanto, em um cenário diferente, modelar a estrutura de dependência entre

e

com cópulas tornaria possível um vínculo com

de Kendall e / ou

de Spearman , dependendo da escolha da cópula.

τ

$\tau$

ρ

$\rho$

x

$x$

y

$y$

x

$x$

y

$y$

τ

$\tau$

ρ

$\rho$

QuantIbex

1

@QuantIbex essa dependência implica necessariamente

?

E [ε_{i} ε_{j}] \neq 0

$E[\varepsilon_i\varepsilon_j]\neq 0$

Shadowtalker

21

Existe um meio muito simples de usar quase qualquer medida de correlação para ajustar regressões lineares e que reproduz menos quadrados quando você usa a correlação de Pearson.

Considere-se que se o declive de uma relação é , a correlação entre e deve ser esperado ser . $\beta$ $y-\beta x$ $x$ $0$

De fato, se fosse algo diferente de , haveria alguma relação linear não capturada - que é o que a medida de correlação estaria captando. $0$

Podemos, portanto, estimar a inclinação por encontrar a inclinação, que faz a amostra correlação entre e ser . Em muitos casos - por exemplo, ao usar medidas baseadas em classificação - a correlação será uma função escalonada do valor da estimativa de inclinação, portanto, pode haver um intervalo em que é zero. Nesse caso, normalmente definimos a estimativa da amostra como o centro do intervalo. Freqüentemente, a função de passo salta de acima de zero para abaixo de zero em algum momento e, nesse caso, a estimativa está no ponto de salto. $\tilde{\beta}$ $y-\tilde{\beta} x$ $x$ $0$

Essa definição funciona, por exemplo, com todos os tipos de correlações robustas e baseadas em classificação. Também pode ser usado para obter um intervalo para a inclinação (da maneira usual - encontrando as inclinações que marcam a borda entre correlações apenas significativas e correlações insignificantes).

Isso apenas define a inclinação, é claro; uma vez que o declive é estimado, a intercepção podem ser com base numa estimativa de localização adequada calculado sobre a resíduos . Com as correlações baseadas em classificação, a mediana é uma escolha comum, mas existem muitas outras opções adequadas. $y-\tilde{\beta}x$

Aqui está a correlação plotada na inclinação dos cardados em R:

insira a descrição da imagem aqui

A correlação de Pearson cruza 0 na inclinação dos mínimos quadrados, 3,932
A correlação de Kendall cruza 0 na inclinação de Theil-Sen, 3,666
A correlação de Spearman cruza 0, fornecendo uma inclinação da "linha de Spearman" de 3,714

Essas são as três estimativas de inclinação para o nosso exemplo. Agora precisamos de interceptações. Para simplificar, usarei apenas o resíduo médio da primeira interceptação e a mediana dos outros dois (não importa muito neste caso):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (a pequena diferença dos mínimos quadrados se deve ao erro de arredondamento na estimativa da inclinação; sem dúvida, há erro de arredondamento semelhante nas outras estimativas)

As linhas ajustadas correspondentes (usando o mesmo esquema de cores acima) são:

insira a descrição da imagem aqui

Edit: Por comparação, a inclinação da correlação do quadrante é 3,333

Tanto a correlação de Kendall quanto a inclinação de Spearman são substancialmente mais robustas para valores extremos influentes do que para os mínimos quadrados. Vejo aqui um exemplo dramático no caso dos Kendall.

Glen_b -Reinstate Monica
fonte

(+1) Ótima explicação! Existe alguma razão pela qual Kendall parece ser mais preferido em relação a Spearman nesse contexto (pelo menos a julgar pelo fato de que a correlação de Kendall corresponde a um estimador de declives com um nome, Theil-Sen, enquanto Spearman não o faz)?

Ameba diz Reinstate Monica

4

Existem várias razões pelas quais esse parece ser o caso. A primeira é que a linha de Theil-Sen possui um estimador simplesmente descrito (mediana das pistas emparelhadas), que o Spearman não possui; em amostras pequenas, é muito adequado para o cálculo manual. A correlação de Kendall se aproxima da normalidade mais rapidamente e é matematicamente mais tratável . Veja também aqui e aqui .

Glen_b -Reinstala Monica

20

$X$ $Y$ $Y$ .

$\chi^2$ estatística de no modelo PO é exatamente a estatística de Wilcoxon.

O modelo PO é um caso especial de uma família mais geral de modelos de probabilidade cumulativa (alguns chamam de link cumulativo), incluindo probit, riscos proporcionais e modelos complementares de log-log. Para um estudo de caso, consulte o Capítulo 15 dos meus folhetos .

Frank Harrell
fonte

4

Aaron Han (1987 em econometria) propôs o estimador de correlação de classificação máxima que se ajusta aos modelos de regressão maximizando a tau. Dougherty e Thomas (2012 na literatura de psicologia) propuseram recentemente um algoritmo muito semelhante. Há uma abundância de trabalhos no MRC ilustrando suas propriedades.

Aaron K. Han, análise não paramétrica de um modelo de regressão generalizado: O estimador de correlação de classificação máxima, Journal of Econometrics, Volume 35, Edições 2–3, julho de 1987, páginas 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR; e Thomas, RP (2012). Tomada de decisão robusta em um mundo não linear.Psychological review, 119 (2), 321. Recuperado de http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

rankman
fonte

Se a regressão linear está relacionada à correlação de Pearson, existem técnicas de regressão relacionadas às correlações de Kendall e Spearman?

Respostas: