A centralização significa reduzir a covariância?

11

Assumindo que tenho duas variáveis ​​aleatórias não independentes e que desejo reduzir a covariância entre elas o máximo possível, sem perder muito "sinal", significa centralizar a ajuda? Eu li em algum lugar que a centralização média reduz a correlação por um fator significativo, então acho que deve fazer o mesmo com a covariância.

lvdp
fonte

Respostas:

30

Se e são variáveis aleatórias e e são constantes, então centragem é o caso especial de e , de modo centragem não afectar covariância.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Além disso, como a correlação é definida como podemos ver que portanto, a correlação também não é afetada pela centralização.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


Essa era a versão populacional da história. A versão de exemplo é a mesma: Se usarmos como nossa estimativa de covariância entre e de uma amostra emparelhada , em seguida,

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
para qualquer e .ab

Artem Mavrin
fonte
Obrigado pela resposta detalhada. Isso significa que, para a covariância da amostra, o tamanho da amostra também não tem impacto? isto é, reduzir o tamanho da amostra não reduz a covariância da amostra?
lvdp 11/02/19
3
@ lvdp Essa provavelmente deve ser uma pergunta separada.
Acumulação
Um tamanho de amostra reduzido só pode vir com uma amostra diferente. Uma amostra diferente pode mostrar covariância diferente, portanto. Porém, como a covariância da amostra é definida como uma média, o tamanho da amostra é dimensionado em princípio.
Nick Cox
5

A definição da covariância de e é . A expressão em que a fórmula é a versão centrado de . Então, nós já centralizamos o quando assumimos a covariância, e a centralização é um operador idempotente; uma vez que uma variável é centralizada, a aplicação do processo de centralização mais vezes não a altera. Se a fórmula não adotasse as versões centralizadas das variáveis, haveria todos os tipos de efeitos estranhos, como a covariância entre temperatura e outra variável sendo diferente dependendo se medimos a temperatura em graus Celsius ou Kelvin.XYE[(XE[X])(YE[Y])]XE[X]XX

Acumulação
fonte
3

"em algum lugar" tende a ser uma fonte pouco confiável ...

Covariância / correlação são definidas com centralização explícita . Se você não centralizar os dados, não estará computando covariância / correlação. (Precisamente: correlação de Pearson)

A principal diferença é se você centraliza com base em um modelo teórico (por exemplo, o valor esperado deve ser exatamente 0) ou com base nos dados (média aritmética). É fácil ver que a média aritmética produzirá covariância menor do que qualquer outro centro.

No entanto, covariância menor não implica menor correlação, ou o contrário. Suponha que temos os dados X = (1,2) e Y = (2,1). É fácil ver que, com a média aritmética centralizada, isso produzirá uma correlação perfeitamente negativa, enquanto que se soubermos que o processo de geração produz 0 em média, os dados são realmente correlacionados positivamente. Portanto, neste exemplo, estamos centralizando - mas com o valor teórico esperado de 0.

Isso pode surgir facilmente. Considere que temos uma matriz de sensores, 11x11, com as células numeradas de -5 a +5. Em vez de assumir a média aritmética, faz sentido usar a média "física" de nossa matriz de sensores aqui ao procurar a correlação de eventos do sensor (se enumerássemos as células de 0 a 10, usaríamos 5 como média fixa, e obteríamos exatamente os mesmos resultados, para que a escolha da indexação desapareça da análise - bom).

Possui QUIT - Anony-Mousse
fonte
Obrigado @ Anony-Mousse, a covariância da amostra dependerá do tamanho da amostra? Ou seja, um tamanho de amostra menor produzirá covariância menor (antes da centralização).
lvdp 11/02/19
11
Depende da amostra obviamente. Em média - eu não sei. Eu esperaria que amostras menores tivessem mais variabilidade principalmente, então talvez mais frequentemente valores extremos. Mas isso é apenas uma intuição.
Quit - Anony-Mousse 12/02/19