Sinal de Covariância e Rho de Spearman

8

Alguém tem uma prova de que a covariância entre duas variáveis sempre tem o mesmo sinal que Rho de Spearman, assumindo que ambas não são zero , ou uma explicação / contra-exemplo para mostrar por que não é esse o caso?

Eu estou falando sobre as magnitudes da "população" (teórica), não sobre as amostras correspondentes. Ou seja, para duas variáveis ​​aleatórias com funções de distribuição e com todos os momentos necessários, co-momentos, etc, existentes,X,YFX,FY

Cov(X,Y)=E(XY)E(X)E(Y)
enquanto

ρs(X,Y)=Cov[FX(X),FY(Y)]

Eu sei que se são dependentes do quadrante ( ), positiva ou negativamente, isso realmente vale,X,YQD

(X,Y)=QDsign{Cov(X,Y)}=sign{ρs(X,Y)}

... novamente, se ambos não forem zero. Mas e se o não puder ser estabelecido ou não se sustentar?QD

O que eu estou procurando depois é uma prova de que se é uma crescente transformação monotônica de , então . Sei que isso parece fortemente intuitivo e até "auto-evidente", mas não consegui encontrar essa prova em lugar algum, nem consegui provar isso sozinho. Mais precisamente, o que quero mostrar é que, se ambos não são zero, eles não podem ter sinais opostos.h(Y)Ysign{Cov(X,Y)}=sign{Cov(X,h(Y))}

Agora, como o Rho de Spearman é invariável a transformações monotônicas, temos ; portanto, uma maneira de provar o resultado do "mesmo sinal" para as covariâncias seria: provar que a covariância sempre tem o mesmo sinal que o Rho de Spearman, daí a questão.ρs(X,Y)=ρs(X,h(Y))

Eu encontrei uma expressão antiga e bonita para a covariância devido a W. Hoeffding, que aproxima muito as definições de e , mas não pude provar a afirmação geral sem assumir a dependência do quadrante.Covρs

Obviamente, se alguém tiver algo diretamente no resultado do "mesmo sinal" (desejado) para as covariâncias, seria igualmente útil.

ATUALIZAÇÃO
Encontrei esta pergunta que está relacionada, mas não é idêntica. Como já mencionado, ele modifica minha pergunta da seguinte maneira: "Suponha que ambas as medidas não sejam zero. Elas podem ter sinais opostos?"

Alecos Papadopoulos
fonte
Qualquer amostra determina uma distribuição: sua distribuição empírica. Assim, seu esforço para excluir amostras da consideração deve ser interpretado como excluindo distribuições discretas ou talvez até todas as distribuições não contínuas. Mas, correspondendo a qualquer distribuição discreta, há uma sequência de distribuições contínuas próximas, cujas covariâncias e propriedades de Spearman Rho convergirão para as da distribuição discreta. Portanto, não faz sentido insistir nessas exclusões - e permitir que elas ofereçam a percepção necessária para produzir inúmeros contra-exemplos.
whuber
@whuber Não vejo como "não estou interessado em resultados de amostras de distribuições", "tem que" ser interpretado como "excluindo distribuições discretas". Realmente, eu não entendo isso. Tudo o que estou pedindo é me fornecer um CDF bivariado e dois marginais com elementos correlatos que sejam tais que as duas expressões expressas em termos de valores esperados possam ter sinais opostos, pelo menos para alguns valores dos parâmetros das distribuições. Ou não pode ter.
Alecos Papadopoulos
Você tem um CDF tão bivariado: uma distribuição uniforme nos pontos que minha simulação fornece.
Dave

Respostas:

3

Existem muitos contra-exemplos. Mas vamos abordar a questão subjacente:

O que eu busco é uma prova de que, se é uma crescente transformação monotônica, .hSign{Cov(X,Y)}=Sign{Cov(X,h(Y))}

Isto é falso.

O primeiro contra-exemplo é a distribuição uniforme discreta nas pontos aqui representado plotando esses sete pontos como círculos vermelhos no painel esquerdo:F(xi,yi)(1,8.1),(2,9.1),(3,10.1),(4,11.1),(5,12.1),(6,13.1),(7,0.1),

Figuras

Considere a família de transformações de Box-Cox

hp(y)=yp1pC+1

onde a constante é escolhida para tornar os valores de comparáveis ​​aos de (por exemplo, configurando para ser a potência da média geométrica de ) e é adicionado para fazer o identidade. Tudo isso é monotônico; um exemplo é mostrado paraChp(yi)yCp1yi1h1p=2no painel direito. Seus efeitos sobre a covariância são plotados no painel do meio. Ele mostra uma mudança de covariância negativa (devido a esse ponto externo no canto inferior esquerdo) para covariância positiva (porque a transformação torna o ponto um pouco menos externo, reduzindo seu efeito negativo na covariância positiva forte de todos os outros dados) .

Em particular, para ser perfeitamente explícito, você pode calcular que

h(yi,2)=(7.0,8.6,10.4,12.4,14.5,16.8,0.908),

dando e Os pontos são plotados como triângulos ocos em azul no painel esquerdo.Cov(xi,yi)=7/3<0Cov(xi,h(yi,2))=0.39217>0.(xi,h(yi,2))

O segundo contra - exemplo é uma versão contínua do primeiro. Seja qualquer distribuição contínua suportada emPara qualquer número real defina(U,V)[1,1]×[1,1].ϵ

(Xϵ,Yϵ)=(X,Y)+ϵ(U,V).

Desde que possui uma distribuição contínua (consulte A soma de uma variável aleatória contínua e de uma variável aleatória mista é contínua? ). Fornecido o suporte de está no primeiro quadrante (estritamente positivo em ambas as variáveis), implicando que as transformações de Box-Cox podem ser aplicadas a Você pode executar os cálculos confirmando que a covariância de é uma função contínua deLogo, para suficientemente pequeno o primeiro contra-exemplo mostra a covariância deϵ0, (Xϵ,Yϵ)|ϵ|<1/10,(Xϵ,Yϵ)Yϵ.(Xϵ,Yϵ)ϵ. ϵ,(Xϵ,Yϵ) é negativo enquanto o de é positivo, QED.(Xϵ,h2(Yϵ))

whuber
fonte
1

Eu digo que eles podem ter sinais opostos.

Vejamos a seguinte simulação.

# Set a random seed so that everyone can get the same results
#     
set.seed(1)

# Import the library that simulates correlated bivariate data
#  
library(MASS) 

# Simulate bivariate normal data with standard normal 
# marginals and 0.9 Pearson correlation. To those 99 
# observations, add a gigantic outlier completely out 
# of the mainstream of the other 99 points. This is why 
# we end up with negative covariance.
#  
X <- rbind(mvrnorm(99,c(0,0),matrix(c(1,0.9,0.9,1),2,2)),c(-10000,10000)) 

# Plot the data
#  
plot(X[,1],X[,2]) 

# Calculate the covariance of the sample. When we regard 
# the simulated data as a discrete population, this is 
# the population covariance.
#  
cov(X[,1],X[,2]) # comes out negative, as the plot suggests

# Calculate the sample Spearman correlation, which is 
# positive, since 99% of the data follow an upward trend.
#  
cor(X[,1],X[,2],method='spearman') # comes out positive

No entanto, podemos considerar os dados simulados como uma população discreta.

# Apply the empirical CDF function to perform the probability
# integral transform. If we regard the sampled data as a
# discrete population, we have tricked R into calculating the
# population Spearman correlation.
#  
cov(ecdf(X[,1])(X[,1]),ecdf(X[,2])(X[,2])) # Positive, same value as before

O "ecdf" (CDF empírico) engana R para tornar a população CDF dessa variável discreta, então acho que estamos trabalhando no nível da população e que isso é um contra-exemplo.

Dave
fonte
Obrigado pela sua resposta. Você pode decifrar o código, no que diz respeito ao mecanismo de geração de dados aqui?
Alecos Papadopoulos
Adicionei comentários ao meu código. Espero que ajude.
Dave
Obrigado. De fato, eles ajudam, porque esclarecem que o que você encontra é puramente uma questão de amostra, uma vez que duas variáveis ​​aleatórias que são correlacionadas bivariadas Normal, são sempre dependentes do quadrante. Portanto, para essa população, a covariância populacional sempre tem o mesmo sinal da população de Spearman.
Alecos Papadopoulos
Se considerarmos a população como uma distribuição uniforme e discreta nesses 99 pontos, como isso não é um exemplo dos sinais da população que diferem?
Dave
Se entendi direito, o mecanismo de geração de dados é Bivariado Normal, está certo?
Alecos Papadopoulos
1

Para aumentar o valor desse segmento, mostrarei por que a dependência do quadrante implica que:
a) covariância terá o mesmo sinal que o Rho de Spearman, se ambos não forem zero;
b) o sinal de covariância não é afetado por transformações monotônicas estritamente crescentes; diferente de zero.

Vou mostrar para distribuições contínuas com densidades, mas essa não é uma condição crítica.

Sejam , duas variáveis ​​aleatórias com a função de distribuição conjunta , funções de distribuição marginal e funções massa densidade / probabilidade . Então nós temosXYFXY(x,y)FX(x),FY(y)fX(x),fY(y)

{Positive Quadrant Dependence iffFXY(x,y)FX(x)FY(y)0(x,y)Negative Quadrant Dependence iff FXY(x,y)FX(x)FY(y)0(x,y)

Observe que a condição crucial é o qualificador "para todos ".(x,y)

Agora, a "bela fórmula de covariância de Hoeffding" é

Cov(X,Y)=SXY[FXY(x,y)FX(x)FY(y)]dxdy

onde é o suporte conjunto. Por outro lado, o Rho de Spearman pode ser expresso comoSXY

ρS(X,Y)=12SXYfx(x)fy(y)[FXY(x,y)FX(x)FY(y)]dxdy

Aqueles que lembram que entendem por que a existência de densidades não é crítica. Mas é esclarecedor: compactando temosdF(x)=f(x)dx[FXY(x,y)FX(x)FY(y)]QD(x,y)

Cov(X,Y)=SXYQD(x,y)dxdy

ρS(X,Y)=12SXYfx(x)fy(y)QD(x,y)dxdy

Vemos que a covariância "soma" as quantidades sobre o apoio conjunto "não ponderada", enquanto a Rho de Spearman as soma ponderada pelo produto das densidades, (que é sempre não -negativo). Se a dependência do quadrante se mantém, em ambas as medidas "somamos" apenas coisas não-negativas ou somente coisas não-positivas. QD(x,y)fx(x)fy(y)

assim

a) Sob , a Covariância terá o mesmo sinal que o Rho de Spearman se ambos não forem zero:QD

sign{Cov(X,Y)}=sign{ρs(X,Y)}

Além disso, considere uma transformação monotônica estritamente crescente de , . O Rho de Spearmans é invariável sob essa transformação,Yh(Y)

ρS(X,Y)=ρS(X,h(Y))

Em Dependência do quadrante, teremos, novamente, quando as duas medidas não forem zero,

sign{Cov(X,h(Y))}=sign{ρs(X,h(Y))}

Ligando igualdades de sinais, obtemos então

sign{Cov(X,Y)}=sign{Cov(X,h(Y))}

Como está implícito nas outras respostas, o resultado contra-intuitivo aqui é que a dependência do quadrante não pode ser eliminada: se não for válida, não temos garantia de que uma transformação estritamente crescente de uma variável preserve o sinal de covariância. Portanto, argumentos informais "bastante lógicos" como "uma vez que, quando tende a aumentar, o mesmo ocorre com , conclui-se que, se covaria positivamente com , também covaria positivamente com " - segue "apenas se for válido. Yh(Y)XYh(Y)QD

Formalmente, pode-se ver isso definindo e observando queZ=h(Y),h(y)>0

FZ(z)=FY(h1(z)),FXZ(x,z)=FXY(x,h1(z)),dz=h(y)dy
. Então nós temos

Cov(X,Z)=SXZ[FXZ(x,z)FX(x)FZ(z)]dxdz

=SXZ[FXY(x,h1(z))FX(x)FY(h1(z))]dxdz
e faça uma alteração da variável de para , para obterZY

Cov(X,Z)=SX,Yh(y)QD(x,y)dxdy

Se o não for válido, isso significa que alguns serão positivos e outros negativos. Então, o fato de que digamos sozinho não pode garantir que também, pois, aqui, ponderamos o integrando anterior por , que, embora estritamente positivo, não seja uma constante e, portanto, pode pesar desproporcionalmente mais os negativos do que os positivos, resultando globalmente em um valor negativo. Portanto, pelo menos nesse caminho, a propriedade da dependência do quadrante é essencial.QDQD(x,y)Cov(X,Y)>0Cov(X,Z)>0h(y)QD(x,y)

Alecos Papadopoulos
fonte