Combinando duas matrizes de covariância

11

Estou calculando a covariância de uma distribuição em paralelo e preciso combinar os resultados distribuídos no Gaussiano singular. Como faço para combinar os dois?

A interpolação linear entre os dois quase funciona, se eles são distribuídos e dimensionados de maneira semelhante.

A Wikipedia fornece um forumla na parte inferior para combinação, mas não parece certo; duas distribuições identicamente distribuídas devem ter a mesma covariância, mas a fórmula na parte inferior da página dobra a covariância.

Existe uma maneira de combinar duas matrizes?

Matt Kemp
fonte
3
A fórmula da Wikipedia responde à sua pergunta, Matt: você pode não ter percebido que é uma fórmula parcial onde, posteriormente, é necessário dividir pelo tamanho da amostra.
whuber
11
Descobri isso agora, com a sua ajuda - se você colocar isso em uma resposta, marcarei como respondida.
Matt Kemp

Respostas:

12

Esta questão surge muito de várias formas. O que é comum a eles é

Como posso combinar estatísticas baseadas no momento que foram computadas a partir de subconjuntos disjuntos dos meus dados?

A aplicação mais simples refere-se a dados que foram divididos em dois grupos. Você sabe o tamanho do grupo e o meio do grupo. Somente em termos dessas quatro quantidades, qual é a média geral dos dados?

Outras aplicações generalizam de médias a variações, desvios padrão, matrizes de covariância, assimetria e estatística multivariada; e pode envolver vários subgrupos de dados. Observe que muitas dessas quantidades são combinações um pouco complicadas de momentos: o desvio padrão, por exemplo, é a raiz quadrada de uma combinação quadrática do primeiro e do segundo momento (quadrado médio e quadrado médio).

Todos esses casos são facilmente tratados, reduzindo os vários momentos a somas, porque as somas são óbvia e facilmente combinadas: elas são adicionadas. Matematicamente, tudo se resume a isso: você tem um lote de dados que foram separados em grupos separados de tamanhos j 1 , j 2 , , j g : ( x 1 , x 2 , , x j 1 ;X=(x1 1,x2,,xn)j1 1,j2,,jg . Vamos chamar o i- ésimo grupo X ( i ) = ( x j i + 1 , x j i + 2 , , x j i(x1 1,x2,,xj1 1;xj1 1+1 1,,xj1 1+j2;xj1 1+j2+1 1,;;,xn)Eu. Por definição, ok-ésimomomentode qualquer lote de dadosy1,,yjé a média dask-potências,X(Eu)=(xjEu+1 1,xjEu+2,,xjEu+1 1)ky1 1,,yjk

μk(y)=(y1 1k+y2k++yjk)/j.

Obviamente é a soma das k- ésimas potências. Portanto, referindo-se à nossa decomposição anterior de dados em subgrupos g , podemos dividir uma soma de n poderes em grupos de somas, obtendojμk(y)kgn

nμk(X)=(x1 1k+x2k++xnk)=(x1 1k+x2k++xj1 1k)++(xj1 1++jg-1 1+1 1k+xj1 1++jg-1 1+2k++xnk)=j1 1μk(X(1 1))+j2μk(X(2))++jgμk(X(g)).

Dividir por exibe o k- ésimo momento de todo o lote em termos dos k- ésimos momentos de seus subgrupos.nkk

No presente pedido, as entradas na matriz de covariância são, obviamente, covariâncias, que são expressáveis ​​em termos de segundos momentos e primeiros momentos multivariados. A parte principal do cálculo se resume a isso: a cada etapa, você se concentrará em dois componentes específicos dos seus dados multivariados; vamos chamá-los de e y . Os números que você está vendo estão no formatoxy

((x1 1,y1 1),(x2,y2),,(xn,yn)),

gxEuyEu(1 1,1 1)μ(1 1,1 1)n

n-1 1nn-1 1jEu-1 1njEu


n

whuber
fonte
Estou um pouco confuso sobre a definição do k-ésimo momento. Você está assumindo zero dados médios?
Rebru
kº
Pode ruim! Eu estava misturando momentos 'centrais' e 'crus'. Obrigado pela clarificação!
Rebru
Eu acho que "conhecer os meios dos tamanhos dos subgrupos" no penúltimo parágrafo deve ler "conhecer os meios dos subgrupos"? (Hesito em editar esta mim desde que eu não me incomodei para estudar a resposta com muito cuidado)
Juho Kokkala
@ Juho Você está certo. Obrigado por perceber isso!
whuber