Por que o denominador do estimador de covariância não deveria ser n-2 em vez de n-1?

36

O denominador do estimador de variância (imparcial) é pois existem observações e apenas um parâmetro está sendo estimado.nn1n

V(X)=i=1n(XiX¯)2n1

Da mesma forma, pergunto-me por que o denominador de covariância não deveria ser quando dois parâmetros estão sendo estimados?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1
MYaseen208
fonte
15
Se você fizer isso, você teria duas definições conflitantes para a variância: um seria a primeira fórmula eo outro seria a segunda fórmula aplicada com . Y=X
whuber
3
Uma média bi / multivariada (expectativa) é um, não dois parâmetros.
ttnphns
14
@ttnphns Isso não é verdade: a média bivariada é obviamente dois parâmetros porque requer dois números reais para expressá-la. (Na verdade, é um parâmetro de vetor único , mas dizer isso apenas disfarça o fato de ter dois componentes.) Isso aparece explicitamente nos graus de liberdade dos testes t de variância combinada, por exemplo, onde é subtraído e não . O interessante dessa pergunta é como ela revela quão vaga, não rigorosa e potencialmente enganosa é a "explicação" comum que subtraímos de porque um parâmetro foi estimado. 1 1 n211n
whuber
@ Whuber, você está certo nisso. Se fosse apenas n (observações independentes) o que importa, não gastaríamos mais df em testes multivariados do que em testes univariados.
ttnphns
3
@ whuber: Eu talvez diria que mostra que o que conta como "um parâmetro" depende da situação. Nesse caso, a variação é calculada sobre n observações e, portanto, cada observação - ou a média total - pode ser vista como um parâmetro, mesmo que seja uma média multivariada, como disse ttnphns. Porém, em outros casos, quando, por exemplo, um teste considera combinações lineares de dimensões, cada dimensão de cada observação se torna "um parâmetro". Você está certo de que este é um problema complicado.
Ameba diz Reinstate Monica

Respostas:

31

Covariances são variações.

Desde pela identidade de polarização

Cov(X,Y)=Var(X+Y2)Var(XY2),

os denominadores devem ser os mesmos.

whuber
fonte
20

Um caso especial deve lhe dar uma intuição; pense no seguinte:

Cov^(X,X)=V^(X)

Você está feliz que o último seja devido à correção de Bessel.Eu=1n(XEu-X¯)2n-1

Mas substituindo por X em ^ C O v ( X , Y ) para ao primeiro dá Σ n i = 1 ( X i - ¯ X ) ( X i - ¯ X )YXCov^(X,Y) , então o que você acha que poderia preencher melhor o espaço em branco?i=1n(XiX¯)(XiX¯)mystery denominator

Silverfish
fonte
1
ESTÁ BEM. Mas o OP pode perguntar "por que considerar cov (X, X) e cov (X, Y) em uma linha lógica? Por que você está substituindo Y por X em cov () de maneira irreverente? Talvez cov (X, Y) é uma situação diferente? " Você não fez AVERT que, embora a resposta (altamente upvoted) deveria ter, na minha impressão :-)
ttnphns
7

Uma resposta rápida e suja ... Vamos considerar primeiro ; se você tivesse n observações com valor esperado conhecido E ( X ) = 0, você usaria 1var(X)n E(X)=0 para estimar a varicia.1ni=1nXi2

Como o valor esperado é desconhecido, você pode transformar suas observações em n - 1 observações com valor esperado conhecido, tomando A i = X i - X 1 para i = 2 , , n . Você obterá uma fórmula com n - 1 no denominador - no entanto, A i não é independente e você deve levar isso em consideração; no final, você encontrará a fórmula usual.nn1Ai=XiX1i=2,,nn1Ai

Agora, para a covariância, você pode usar a mesma idéia: se o valor esperado de fosse ( 0 , 0 ) , você teria 1(X,Y)(0,0) na fórmula. Subtraindo(X1,Y1)a todos os outros valores observados, você obtémn-1observações com o valor esperado conhecido ... e um11n(X1,Y1)n1 na fórmula - mais uma vez, isso introduz alguma dependência a ser levada em consideração.1n1

PS A maneira limpa para fazer isso é escolher uma base ortonormal de , que é n - 1 vetores c 1 , ... , c n - 1R n tal que(1,,1)n1c1,,cn1Rn

  • para todas as i ,jcij2=1i
  • para todos os i ,jcij=0i
  • para todos os i 1i 2 .jci1jci2j=0i1i2

Pode, em seguida, definir variáveis Um i = Σ j c i j X j e B i = Σ j c i j Y j . Os ( A i , B i ) são independentes, têm valor esperado ( 0 , 0 ) e têm a mesma variância / covariância que as variáveis ​​originais.n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

A questão é que, se você quiser se livrar da expectativa desconhecida, descarte uma (e apenas uma) observação. Isso funciona da mesma forma nos dois casos.

Elvis
fonte
6

Aqui está uma prova de que o estimador de covariância da amostra p-variada com denominador é um estimador imparcial da matriz de covariância:1n1

.x=(x1,...,xp)

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

E(S)=n1nΣ

S=1nxixix¯x¯

Next:

(1) E(xixi)=Σ+μμ

(2) E(x¯x¯)=1nΣ+μμ

Therefore: E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

And so Su=nn1S, with the final denominator 1n1, is unbiased. The off-diagonal elements of Su are your individual sample covariances.

Additional remarks:

  1. The n draws are independent. This is used in (2) to calculate the covariance of the sample mean.

  2. Step (1) and (2) use the fact that Cov(x)=E[xx]μμ

  3. Step (2) uses the fact that Cov(x¯)=1nΣ

statchrist
fonte
The difficulty being in step 2 ! :)
Elvis
@Elvis It's messy. One needs to apply the rule Cov(X+Y,Z)=Cov(X,Z) + Cov(Y,Z) and recognize that the different draws are independent. Then it's basically summing up the covariance n times and scaling it down by 1/n²
statchrist
4

I guess one way to build intuition behind using 'n-1' and not 'n-2' is - that for calculating co-variance we do not need to de-mean both X and Y, but either of the two, i.e.

Uditg_ucla
fonte
Could you elaborate on how this bears on the question of what denominator to use? The algebraic relation in evidence derives from the fact that the residuals relative to the mean sum to zero, but otherwise is silent about which denominator is relevant.
whuber
5
I came here because I had the same question as the OP. I think this answer gets at the nub of the point @whuber pointed out above: that the rule of thumb is that df ~= n - (parameters estimated) can be "vague, unrigorous, and potentially misleading." This points out the fact that though it looks like you need to estimate two parameters (xbar and ybar), you really only estimate one (xbar or ybar). Since the df should be the same in both cases, it must be the lower of the two. I think that is the intent here.
mpettis
1

1) Start df=2n.

2) Sample covariance is proportional to Σi=1n(XiX¯)(YiY¯). Lose two df; one from X¯, one from Y¯ resulting in df=2(n1).

3) However, Σi=1n(XiX¯)(YiY¯) only contains n separate terms, one from each product. When two numbers are multiplied together the independent information from each separate number disappears.

As a trite example, consider that

24=124=212=38=46=64=83=122=241,

and that does not include irrationals and fractions, e.g. 24=2626, so that when we multiply two number series together and examine their product, all we see are the df=n1 from one number series, as we have lost half of the original information, that is, what those two numbers were before the pair-wise grouping into one number (i.e., multiplication) was performed.

In other words, without loss of generality we can write

(XiX¯)(YiY¯)=ziz¯ for some zi and z¯,

i.e., zi=XiYiX¯YiXiY¯, and, z¯=X¯Y¯. From the z's, which then clearly have df=n1, the covariance formula becomes

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯).

Thus, the answer to the question is that the df are halved by grouping.

Carl
fonte
@whuber How on earth did I get the same thing posted twice and deleted once? What gives? Can we get rid of one of them? For future reference, is there any way to permanently delete such duplicates? I have a few hanging around and it's annoying.
Carl
As far as I can tell, you reposted your answer from the duplicate to here. (Nobody else has the power to post answers in your name.) The system strongly discourages posting identical answers in multiple threads, so when I saw that, it convinced me these two threads are perfect duplicates and I "merged" them. This is a procedure that moves all comments and answers from the source thread to the target thread. I then deleted your duplicate post here in the target thread. It will remain permanently deleted, but will be visible to you as well as to people of sufficiently high reputation.
whuber
@whuber I didn't know what happens in a merge, that a merge was taking place or what many of the rules are, despite looking things up constantly. It takes time to learn, be patient, BTW, would you consider taking stats.stackexchange.com/questions/251700/… off of Hold?
Carl