Existem limites na correlação de Spearman de uma soma de duas variáveis?

8

Dados vetores modo que o coeficiente de correlação de Spearman de e seja , existem limites conhecidos no coeficiente de Spearman de com , em termos de (e , presumivelmente)? Ou seja, é possível encontrar funções (não triviais) forma que nx,y1,y2xyiρi=ρ(x,yi)xy1+y2ρinl(ρ1,ρ2,n),u(ρ1,ρ2,n)

l(ρ1,ρ2,n)ρ(x,y1+y2)u(ρ1,ρ2,n)

edit : por exemplo do @ whuber no comentário, parece que, no caso geral, somente os limites triviais podem ser feitos. Assim, eu gostaria de impor ainda mais a restrição:l=1,u=1

  • y1,y2 são permutações dos números inteiros .1n
shabbychef
fonte
2
Somente sabendo , o intervalo que contém deve incluir e : para cada poderia ter valores muito pequenos (apesar de ter qualquer ordem de classificação) e, assim, simplesmente "tremer" os valores em quando adicionados a . Portanto, a ordem de classificação de não seria afetada. Não sei se o intervalo pode exceder o . ρ ( x , y 1 + y 2 ) ρ 1 ρ 2 y 1 , y 2 y 1 y 1 y 1 ρ iρ1,ρ2ρ(x,y1+y2)ρ1ρ2y1,y2y1y1y1ρi
Caracal
2
@caracal Boas observações. O intervalo definitivamente pode ser maior que o : basta considerar o caso em que ambas as correlações são zero. A correlação com a soma pode ser facilmente diferente de zero - pode variar de -1 a 1. Por exemplo, x = (1,2,3,4,5); y1 = (3, -10,2,10,1); y2 = (-8,9, -2, -9,4); y1 + y2 = (-5, -1,0,1,5) tem mas . ρ 1 = ρ 2 = 0 ρ = 1ρiρ1=ρ2=0ρ=1
whuber
@ Whuber: isso parece implicar apenas limites triviais existem (ou seja, ). Talvez eu tenha que jogar outra restrição ao problema. l=1,u=1
precisa
@shabbychef Não, você postou um bom problema: não é trivial. No caso , por exemplo, a única possibilidade é . Eu suspeito que os limites não sejam triviais, exceto quando ; eles devem ficar mais restritos conforme e aproximam . ρ = 1 ρ 1 = ρ 2 = 0 ρ 1 ρ 2 ± 1ρ1=ρ2=1ρ=1ρ1=ρ2=0ρ1ρ2±1
whuber
1
Aqui está outro caso patológico. Suponha que e . Então , mas e . Pode ser esclarecedor pensar em uma versão mais simples e probabilística do problema. Sejam , e variáveis ​​aleatórias, cada uma com distribuições marginalmente uniformes. Agora seja o CDF de . O que podemos dizer sobre base em e ? y 1 = - y 2 ρ ( x , y 1 + y 2 ) = 0 ρ 1 = 1 ρ 2 = - 1 X Y 1 Y 2 Gx=y1y1=y2ρ(x,y1+y2)=0ρ1=1ρ2=1XY1Y2G C O v ( X , L ( Y 1 + Y 2 ) ) C O v ( X , Y 1 ) C O v ( X , Y 2 )Y1+Y2Cov(X,G(Y1+Y2))Cov(X,Y1)Cov(X,Y2)
vqv

Respostas:

4

A correlação de classificação de Spearman é apenas a correlação produto-momento de Pearson entre as fileiras das variáveis. A restrição extra de Shabbychef significa que e são os mesmos de suas fileiras e que não há vínculos; portanto, eles têm desvio padrão igual (por exemplo). Se também substituirmos x por suas fileiras, o problema se tornará o problema equivalente para a correlação produto-momento de Pearson. Por definição da correlação produto-momento de Pearson, y 2 σ y ρ ( x , y 1 + y 2 )y1y2σy
ρ1ρ2-

ρ(x,y1+y2)=Cov(x,y1+y2)σxVar(y1+y2)=Cov(x,y1)+Cov(x,y2)σxVar(y1)+Var(y2)+2Cov(y1,y2)=ρ1σxσy+ρ2σxσyσx2σy2+2σy2ρ(y1,y2)=ρ1+ρ22(1+ρ(y1,y2))1/2.
Para qualquer conjunto de três variáveis, se conhecermos duas de suas três correlações, podemos colocar limites na terceira correlação (veja, por exemplo, Vos 2009 , ou a partir da fórmula para correlação parcial ): ρ 1 + ρ 2
ρ1ρ21ρ121ρ22ρ(y1,y2)ρ1ρ2+1ρ121ρ22
Portanto, se ; se você precisa mudar os limites.
ρ1+ρ22(1+ρ1ρ2+1ρ121ρ22)1/2ρ(x,y1+y2)ρ1+ρ22(1+ρ1ρ21ρ121ρ22)1/2
ρ1+ρ20ρ1+ρ20
uma parada
fonte
Mas o verdadeiro problema é que as fileiras não aumentam. Veja meu comentário para a pergunta.
vqv
@vqv, mas se e são permutações dos números inteiros então eles são exatamente iguais às suas fileiras. y1y21n
onestop
metade da soma das permutações não precisa ser uma permutação; Mas isso é muito próximo, e responde a pergunta para Pearson, acredito.
shabbychef
Os valores classificados de são em geral uma função não linear de - mesmo que e sejam cada uma uma permutação dos números inteiros . Aqui está um exemplo: e . Então e . Plote na e verá que não há relação linear entre os dois. A afirmação acima de que é geralmente falsa , mesmo sob a suposição de quey1+y2y1+y2y1y21,,ny1=(1,2,3,4)y2=(2,3,1,4)y1+y2=(3,5,4,8)y 1 + y 2 r a n k ( y 1 + y 2 ) ρ ( x , y 1 + y 2 ) = C o v ( x , y 1 + y 2 ) /y 1rank(y1+y2)=(1,3,2,4)y1+y2rank(y1+y2)ρ(x,y1+y2)=Cov(x,y1+y2)/ y1e são permutações dos números inteiros. y2
vqv
@vqv Você está certo. Eu estava muito apressado para tentar uma resposta antes de sair para o feriado de Natal. Eu não havia encontrado essa desigualdade relacionada à correlação de Pearson de três variáveis ​​antes. Aqui está outra referência completa com visualizações em 3D: jstor.org/stable/2684832 . Ainda acho que isso pode ter alguma relevância, então não vou excluir minha resposta, embora também não consiga ver como corrigi-la.
onestop