A correlação da amostra está sempre positivamente correlacionada com a variação da amostra?

7

A correlação da amostra e o desvio padrão da amostra de (denominado ) parecem correlacionar-se positivamente se eu simular normal bivariado , com uma correlação verdadeira positiva (e parecer correlacionar-nos negativamente se a correlação verdadeira entre e for negativo). Achei isso um pouco contra-intuitivo. Muito heuristicamente, suponho que isso reflita o fato de que representa o aumento esperado em Y (em unidades de SD (Y)) para um aumento de um DP em X, e se estimamos um maior , então reflete a mudança em Y associado a uma mudança maior no X.rXsXXYXYrsXr

No entanto, gostaria de saber se para é válido em geral (pelo menos no caso em que X e Y são bivariados normais e com n grande). Deixando denotar um verdadeiro SD, temos:Cov(r,sx)>0r>0σ

Cov(r,sX)=E[rsX]ρσx

E[Cov^(X,Y)sY]Cov(X,Y)σY

Tentei usar uma expansão de Taylor no primeiro mandato, mas isso depende de , portanto esse é um beco sem saída. Alguma ideia?Cov(Cov^(X,Y),sY)

EDITAR

Talvez uma direção melhor seria tentar mostrar que , onde é o coeficiente OLS de Y em X. Então poderíamos argumentar que, desde que , isso implica o resultado desejado. Como é quase como uma diferença da média da amostra, talvez possamos obter o resultado anterior usando algo como a independência conhecida da média e variação da amostra para um RV normal?Cov(β^,sX)=0β^β^=rsYsXβ^

meia passagem
fonte
Seria inalterado. Hmm. Receio ainda não ver a relevância.
half-pass
Eu provavelmente deve também notar que, enquanto eu gostaria que isso fosse uma pergunta lição de casa, não é ... :)
meia-pass
11
Ah, eu não li a pergunta com atenção suficiente. Me desculpe.
jbowman
A primeira igualdade no seu cálculo não está correta. é consistente para o desvio padrão, mas não é imparcial: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviationsx=sx2
Andrew M
No entanto, é extremamente próximo de imparcial para n grande - o fator de correção de regra de ouro para um VR normal é (n - 1,5) vs. (n-1).
half-pass

Respostas:

4

TL; dr

As entradas fora da diagonal da covariância da amostra geralmente serão correlacionadas com as entradas diagonais porque somente quando condições especiais dos momentos mistos de 4ª ordem são mantidos. Quando é bivariável Gaussiana, estas condições são somente quando é independente de .E(XY3)E(XY)E(Y2)=0(X,Y)XY

Detalhes

Há um resultado assintótico que pode ser mostrado aqui examinando a distribuição limitadora de vezes a covariância da amostra (pelo CLT, será normal multivariada) e, em seguida, aplicando o método delta. Infelizmente, isso significa que teremos que desviar através de uma derivação da distribuição da covariância de amostra pois não consigo encontrar boas referências on-line. Como alternativa, se você estiver disposto a assumir a normalidade, o conhecimento da covariância da distribuição Wishart permitirá que você pule diretamente para a seção 2.n1

1 A distribuição assintótica da covariância da amostra

Seja uma amostra iid de uma distribuição bivariada com quarto momentos finitos e deixe Sem perda de generalidade e para evitar alguma contabilidade adicional irritante, assumiremos . V1,,VnVi=(XiYi)

Cov(Vi)=(σ2ρστρσττ2)=Σ.
E(Vi)=0

Então, pela linearidade da expectativa e pela lei fraca de grandes números, a covariância da amostra é imparcial e consistente para e, de fato

Sn=1n1i=1n(ViV¯n)(ViV¯n)T=1n1i=1ViViTnn1V¯nV¯nT
Σ
n(SnΣ)dN(0,Λ).

O exercício passa assim para determinar . Para uma matriz simétrica , seja seja a "vetorização" do seu triângulo superior. Agora considere um único elemento da média que entra no termo inicial (a matriz de dispersão) de : Claramente, pelo pressuposto da média zero, já e considerando as potências de e que aparecem em , podemos apenas escrever ΛA=(abbc)A~=(a,b,c)TSn

Z~i=ViViT~=(Xi2XiYiYi2).
E(Zi)=Σ~XYZ~iZ~iT
Cov(Z~i)=E(Z~iZ~iT)E(Z~i)E(Z~i)T=(κ40σ4κ31σ2τκ22σ2τ2κ31σ2τκ22σ2τ2κ13στ3κ22σ2τ2κ13στ3κ04τ4)-Σ~Σ~T.

Aqui indica o momento padronizado misto (sobre a média, mas assumimos que a média é zero no início).

κEuj=E[(XEuσ)Eu(YEuτ)j]
Euj

Como alternativa, temos a fatoração onde , e

Cov(Z~Eu)=D(σ,τ)[K-R(ρ)R(ρ)T]D(σ,τ),(1 1)
D(σ,τ)=diag(σ2,στ,τ2)R(ρ)=(1,ρ,1)T
K=(κ04κ31κ22κ31κ22κ13κ22κ13κ04).

Portanto, temos que e , representando a variação da amostra de e a covariância de estão correlacionados, a menos que . Quando é multivariada normal, isso ocorre apenas quando .Z11Z12XX,Yρ=κ31Viρ=0

2 O coeficiente de correlação

Agora considere a transformação em . Isso fornece a distribuição bivariada do coeficiente de correlação da amostra e a variação da amostra de x. Pelo método delta e normalidade assintótica de , onde é o jacobiano de .g(x,y,z)=(x,yzx)Sn~Sn

n(g(Sn~)(ρ,σ2)T)N(0,J(Σ~)TΛ~J(Σ~)),
J(Σ~)=[g1T,g2T]Tg

Acho (embora você provavelmente queira verificar minha álgebra ..) que o gradiente do segundo componente de é Então g

g2(σ2,ρστ,τ2)=(ρ2σ2,1στ,ρ2τ2)T,

J(σ,ρ,τ)=(1ρ2σ201στ0ρ2τ2).

Juntando tudo isso com a fatoração na equação (1), obtém-se

J(σ,ρ,τ)TD(σ,τ)[KR(ρ)R(ρ)T]D(σ,τ)J(σ,ρ,τ).

Conectando alguns números fáceis de usar, digamos e , teríamos para onde geralmente é uma matriz densa. Cortesia de Mathematica, eu expandi este produto em termos de entradas em e recontei abaixoσ=τ=1ρ=.5

J(σ,ρ,τ)TD(σ,τ)[KR(ρ)R(ρ)T]D(σ,τ)J(σ,ρ,τ)=(1/411/4100)IΩI(1/41101/40)=Q,
Ω=KR(ρ)R(ρ)TKQ12
n×Q12=n×Cov(r,sx2)=κ31κ04+κ224(2)
que é uma expressão opaca em termos de momentos mistos, mas certamente não parece que seja zero, geralmente.

3 Especializando-se no caso normal

O teorema de Isserlis fornece uma maneira de derivar os momentos mistos de um gaussiano. Novamente assumindo e , teríamos , portanto, , como você observa.σ=τ=1ρ=.5κ31=3/2,κ04=3,κ22=3/2Q12=3/2(3+3/2)/4=3/8>0

4 Simulação e Exemplo

Abaixo, encontre uma equação de verificação de simulação (1). Para e (em vermelho e azul, respectivamente) a partir de observações iid um normal multivariada, que derivam da covariância de por de bootstrap. A covariância entre e é plotada no eixo y, pois varia de a . O valor teórico da equação (1) e o uso de fatos sobre os momentos de 4ª ordem do gaussiano bivariado são plotados em uma linha preta tracejada.n=100n=1000nS~nSxySxxρ.9.9

Equação de verificação da simulação (1)

Um exercício divertido seria tentar encontrar uma família de cópulas que, para qualquer valor de , renderizasse ...ρCov(Sxy,Sxx)=0

library(mvtnorm)
library(tidyverse)
library(boot)
params = expand.grid(sx = 1, sy = 1, n = c(100, 1000), rho = seq(-.9, .9, by = .1), replicate = 1:10) %>% mutate(k04 = 3*sx^4, k31 = 3*sx*rho*sx*sy, q12 = k31 - rho*sx*sy)

Sn_tilde = function(dat, idx){
    Sn = cov(dat[idx,,drop =FALSE])*sqrt(length(idx))
    Sn[upper.tri(Sn, diag = TRUE)]
}

out = params %>% group_by_all() %>% do({
    x = with(., rmvnorm(n = .$n, sigma = matrix(c(sx^2, rho*sx*sy,
                                            rho*sx*sy, sy^2), nrow = 2)))
colnames(x) = c('X', 'Y')
b = boot(x, Sn_tilde, R = 500)
cov_Sn = cov(b$t)
    rownames(cov_Sn) = colnames(cov_Sn) = c('Sxx', 'Sxy', 'Syy')
    as_tibble(cov_Sn, rownames = 'j')
})


ggplot(filter(out,  j == 'Sxx'), aes(x = rho, y = Sxy, color = factor(n))) + geom_point(size = .5, alpha = .5) + geom_smooth(method = 'lm') + geom_line(data = filter(params, replicate == 1, n == 100), aes(y = q12), lty = 2, color = 'black') + theme_minimal() + ylab('Cov(Sxy, Sxx)')


1 Isso usa muito as notas da aula de Michael Perlman sobre probabilidade e estatística matemática, que eu realmente gostaria que estivessem disponíveis eletronicamente, para que eu pudesse substituir as minhas quando elas se desgastarem ...

Andrew M
fonte
Obrigado! No entanto, acho que pode haver um passo em falso em algum lugar: de fato, parece que , não 3/8, empiricamente (embora não o faça porque e ). Cov(r,sx)0Corr(r,sx)Var(r,sx)0Var(r,sx)0
half-pass
Vou fazer uma nova pergunta sobre isso, pois também não sei como mostrar . Cov(r,sx)0
half-pass
(+1) Postagem muito interessante. Parece que para a bivariada , a expressão avaliada em . Isso leva ao resultado de que se enquanto se . N(0,1)(2)3ρ10.5ρ2ρ<0.35Cov(r,sx2)<0ρ>0.35Cov(r,sx2)>0
Alecos Papadopoulos
@ meia passagem: o par precisa ser ampliado por para ter uma distribuição limitadora (não degenerada). Se você quiser examinar a correlação per se, poderá usar o resultado na seção 1 e apenas modificar a função na seção 2 de acordo. (r,sx)ng
Andrew M
11
@AlecosPapadopoulos: a expressão 2 já é especializada no caso e . Se tudo o que importa é o sinal da associação entre e , só poderia examinar a [1,2] entrada na diferença na equação 1 utilizando fatos sobre a momentos mistos de um normal bivariado para conectar-se ao em função de . τ2=σ2=1ρ=.5sxrKR(ρ)R(ρ)TKρ
Andrew M
1

Editar: esta resposta está incorreta. Não tenho certeza se é melhor deixá-lo aqui para o registro ou apenas excluí-lo.

Sim, ele é assintoticamente independente da distribuição de X e Y. Eu estava no caminho certo com a expansão de Taylor:

insira a descrição da imagem aqui

meia passagem
fonte
Eu olho para a eq. , segunda linha. Temos um limite de probabilidade menos uma quantidade fixa. Se tivermos consistência, o limite de probabilidade será igual à quantidade fixa. Portanto, a segunda linha da eq. parece ser igual a zero ... o que deveria ser esperado, uma vez que o limite de probabilidade de é igual a . Mas ambos e são constantes, então sua covariância é zero. Parece que o resultado obtido depende criticamente 1) em ignorar o restante Taylor (cujo sinal não sabemos) e (cont)(2.1)(2.1)Cov(r,sx)Cov(ρ,σx)ρσx
Alecos Papadopoulos
11
(CONTD) ... e 2) na aplicação seletiva da propriedade consistency em determinados termos, mas não em outros. Você tem certeza de que essas são manipulações válidas?
Alecos Papadopoulos
Obrigado pela resposta. Fiz essa manipulação na segunda linha porque, para RVs gerais U e V, plim E [U] E [V] = plim E [U] plim E [V], dando-me o segundo termo. Mas, para o primeiro termo, plim E [UV]! = Plim E [U] plim E [V]. Portanto, acho que apliquei consistência por toda parte, apenas em etapas diferentes.
meia-passagem
Mas não tenho certeza ...
half-pass
Ok - isso é realmente incorreto! No entanto, não acho que seja por causa da primeira manipulação, mas pelo fato de eu ter ignorado que Var (s_Y) -> 0 também, levando a uma tautologia. Infelizmente, não posso rebater minha própria resposta.
half-pass
0

Vai depender da distribuição conjunta. Para o exemplo mencionado, a distribuição normal bivariada (média zero) é caracterizada peloρ,σx,σy. Conclui-se que é possível ter todas as combinações possíveis de valores desses três parâmetros, implicando que nenhuma relação entreρ e os desvios padrão podem ser estabelecidos.

Para outras distribuições bivariadas, o coeficiente de correlação pode ser fundamentalmente uma função dos desvios padrão (essencialmente ambos serão funções de parâmetros mais primitivos), caso em que se pode examinar se existe uma relação monotônica.

Alecos Papadopoulos
fonte
2
Entendo que os três parâmetros podem ter relações arbitrárias para a distribuição do BVN, mas não creio que as estimativas amostrais sejam assintoticamente independentes.
half-pass