Uma medida de "variação" da matriz de covariância?

16

Se os dados forem 1d, a variação mostrará até que ponto os pontos de dados são diferentes um do outro. Se os dados forem multidimensionais, obteremos uma matriz de covariância.

Existe uma medida que fornece um número único de como os pontos de dados são diferentes entre si em geral para dados multidimensionais?

Sinto que já pode haver muitas soluções, mas não tenho certeza do termo correto a ser usado para procurá-las.

Talvez eu possa fazer algo como somar os autovalores da matriz de covariância, isso parece sensato?

dontloo
fonte
2
Determinante da matriz de covariância. Vou postar uma resposta mais detalhada em breve.
user603
5
O rastreamento é usado com muita frequência. Por exemplo, no PCA, a fração de variação explicada por cada componente é uma fração da "variação total" que é definida como o traço da matriz de covariância. @ user603 Ansioso por sua resposta.
Ameba diz Reinstate Monica
2
adding up the eigenvalues of the covariance matrixé igual ao traço da ameba mencionado acima.
ttnphns
Para que serve a medida?
HelloGoodbye
Olá, na verdade, eu tenho alguns dados [barulhentos] com rótulos e presumo que os pontos de dados [verdadeiros] dentro da mesma categoria não devem ser muito diferentes. Estou procurando uma maneira de medir o grau de diferenças dos pontos de dados dentro de cada categoria, para que eu possa ter uma idéia de quão ruidosos são os dados para cada categoria.
Dontloo

Respostas:

15

(A resposta abaixo apenas introduz e declara o teorema comprovado em [0]. A beleza desse artigo é que a maioria dos argumentos é feita em termos de álgebra linear básica. Para responder a essa pergunta, basta dizer os principais resultados, mas por todos os meios, verifique a fonte original).

Em qualquer situação em que o padrão multivariado dos dados possa ser descrito por uma distribuição elíptica k variável, a inferência estatística reduzirá, por definição, o problema de ajustar (e caracterizar) um vetor de localização variável k (digamos ) e um por simétrica matriz definida semi-positivo (dizer ) para os dados. Por razões que explico abaixo (mas que você já assume como premissas), muitas vezes será mais significativo decompor em um componente de forma (uma matriz SPSD do mesmo tamanho quek k Σ Σ Σ σ SθkkΣΣΣ) responsável pelo formato dos contornos de densidade da sua distribuição multivariada e um escalar que expressa a escala desses contornos.σS

Nos dados univariados ( ), , a matriz de covariância de seus dados é escalar e, como se segue na discussão abaixo, o componente de forma de é 1, para que seja igual a seu componente de escala sempre e nenhuma ambiguidade é possível.Σ Σ Σ Σ = σ Sk=1ΣΣΣΣ=σS

Em dados multivariados, muitas opções de funções de escala são possíveis. Um em particular ( ) se destaca por ter uma propriedade chave desejável. Isso deve torná-lo a escolha preferida do fator de escala no contexto das famílias elípticas.σ S = | ΣσSσS=|ΣΣ|1/k


Muitos problemas nas estatísticas de MV envolvem a estimativa de uma matriz de dispersão, definida como uma função (al) semi-positiva simétrica definida em e satisfatória:R k × kΣRk×k

A b

(0)Σ(AX+b)=AΣ(X)A
(para matrizes não singulares e vectors ). Por exemplo, a estimativa clássica de covariância satisfaz (0), mas não é de forma alguma a única. Ab

Na presença de dados elípticos distribuídos, em que todos os contornos de densidade são elipses definidos pela mesma matriz de forma, até a multiplicação por um escalar, é natural considerar versões normalizadas de da forma:Σ

VS=Σ/S(Σ)

em que é uma função 1-honógena que satisfaz:S

(1)S(λΣ)=λS(Σ)

para todos . Então, é chamado o componente de forma da matriz de dispersão (na matriz de formas curtas) e é chamado de componente de escala da matriz de dispersão. Exemplos de problemas de estimativa multivariada em que a função de perda depende apenas de através de seu componente de forma incluem testes de esfericidade, PCA e CCA, entre outros.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0VSσS=S1/2(Σ)ΣVS

Obviamente, existem muitas funções de dimensionamento possíveis, de modo que isso ainda deixa em aberto a questão de qual (se houver) dentre várias opções da função de normalização é, em certo sentido, ideal. Por exemplo:S

  • S=tr(Σ)/k (por exemplo, o proposto por @amoeba em seu comentário abaixo da pergunta do OP. Veja também [1], [2], [3])
  • S=|Σ|1/k ([4], [5], [6], [7], [8])
  • Σ11 (a primeira entrada da matriz de covariância)
  • Σλ1(Σ) (o primeiro valor próprio de )Σ

No entanto, é a única função de dimensionamento para a qual a matriz Fisher Information para as estimativas correspondentes de escala e forma, em famílias localmente assintoticamente normais, é diagonal de bloco (que é a escala e os componentes de forma do problema de estimativa são assintoticamente ortogonais) [0]. Isso significa, entre outras coisas, que a escala funcional é a única opção de para a qual a não especificação de não causa perda de eficiência ao executar inferência em . S = | Σ | 1 / k S σ S V SS=|Σ|1/kS=|Σ|1/kSσSVS

Não conheço nenhuma caracterização de otimalidade comparativamente forte para qualquer uma das muitas opções possíveis de que satisfazem (1).S

  • [0] Paindaveine, D., Uma definição canônica de forma, Statistics & Probability Letters, Volume 78, Edição 14, 1 de outubro de 2008, páginas 2240-2247. Link não bloqueado
  • [1] Dumbgen, L. (1998). No M-funcional de dispersão de Tyler em alta dimensão, Ann. Inst. Statist. Matemática. 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger e H. Oja (2004). Métodos de sinais multivariados equivalentes afins. Preprint, Universidade de Jyvaskyla.
  • [3] Tyler, DE (1983). Propriedades de robustez e eficiência de matrizes de dispersão, Biometrika 70, 411–420.
  • [4] Dumbgen, L. e DE Tyler (2005). Nas propriedades de detalhamento de alguns M-Functionals multivariados, Scand. J. Statist. 32, 247-264.
  • [5] Hallin, M. e D. Paindaveine (2008). Testes ótimos baseados em classificação para homogeneidade de dispersão, Ann. Statist., Para aparecer.
  • [6] Salibian-Barrera, M., S. Van Aelst e G. Willems (200 6). Análise de componentes principais baseada em estimadores MM multivariados com bootstrap rápido e robusto, J. Amer. Statist. Assoc. 101, 1198–1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila e H. O ja (2006). Funções de influência e eficiências da correlação canônica e estimativas de vetores com base em matrizes de dispersão e forma, J. Multivariate Anal. 97, 359-384.
  • [8] Tatsuoka, KS e DE Tyler (2000). Sobre a singularidade de S-Funcionais e M-funcionais em distribuições não elípticas, Ann. Statist. 28, 1219-1243.
user603
fonte
11
Além disso, é uma escolha estranha para o componente de escala, porque não é a rotação invariante ...Σ11
ameba diz Reintegrar Monica
Obrigado pela resposta deliberada! ele vai me levar algum tempo para compreender plenamente que embora :)
dontloo
@amoeba: aplicado ao XΣ . Largo o XXX no restante da resposta, porque não há confusão possível. Eu concordo que é um pouco desajeitado, então agora uso Σ ( XXX . Eu concordo com o seu segundo comentário. Pela mesma tocken λ 1 ( Σ ) não é invariável ao redimensionamento. Nesse sentido, a restrição de homogeneidade colocada em S é uma barra muito baixa. Σ(XX)λ1(Σ)S
user603
Esperar; por que alguém desejaria ou esperaria que o componente de escala fosse invariável ao redimensionamento?
Ameba diz Reinstate Monica
Desculpe, eu quis dizer que se você usar como função de dimensionamento, a matriz de formas resultante não será equivalente ao redimensionamento. λ1(Σ)
user603
10

A variação de uma variável escalar é definida como o desvio ao quadrado da variável de sua média:

Var(X)=E[(XE[X])2]

Uma generalização para uma variação escalar-avaliada para variáveis ​​aleatórias com valor vetorial pode ser obtida interpretando o desvio como a distância euclidiana :

Vars(X)=E[XE[X]22]

Esta expressão pode ser reescrita como

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

onde é a matriz de covariância. Finalmente, isso pode ser simplificado paraC

Vars(X)=tr(C)

que é o traço da matriz de covariância.

Olá adeus
fonte
4

Embora o traço da matriz de covariância, tr (C) , forneça uma medida da variação total, ela não leva em consideração a correlação entre variáveis.

Se você precisar de uma medida da variação geral que seja grande quando suas variáveis ​​forem independentes uma da outra e muito pequena quando as variáveis ​​estiverem altamente correlacionadas, você poderá usar o determinante da matriz de covariância | | | .

Por favor, consulte este artigo para um melhor esclarecimento.

Sahar
fonte
4

Se você precisar de apenas um número, sugiro o maior valor próprio de uma matriz de covariância. Essa também é uma variação explicada do primeiro componente principal no PCA. Indica quanta variação total pode ser explicada se você reduzir a dimensionalidade do seu vetor para um. Veja esta resposta em matemática SE.

A ideia é que você reduza seu vetor em apenas uma dimensão, combinando todas as variáveis ​​linearmente em uma série. Você acaba com o 1d problema.

A variação explicada pode ser relatada em termos de% para a variação total. Nesse caso, você verá imediatamente se há muita correlação linear entre as séries. Em algumas aplicações, esse número pode ser 80% ou mais alto, por exemplo, modelagem de curva de taxa de juros em finanças. Isso significa que você pode construir uma combinação linear de variáveis ​​que explica 80 de variação de todas as variáveis.

Aksakal
fonte
3

H(X)=p(x)logp(x)dx.

p(x)μΣ

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.

dontloo
fonte
This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber
@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo
That sounds like it's going somewhere useful and more general.
whuber
1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603