Medidas de similaridade ou distância entre duas matrizes de covariância

28

Existem medidas de similaridade ou distância entre duas matrizes de covariância simétricas (ambas com as mesmas dimensões)?

Estou pensando aqui em análogos à divergência KL de duas distribuições de probabilidade ou à distância euclidiana entre vetores, exceto aplicada a matrizes. Eu imagino que haveria algumas medidas de similaridade.

Idealmente, eu também gostaria de testar a hipótese nula de que duas matrizes de covariância são idênticas.

Ram Ahluwalia
fonte
3
as respostas para esta pergunta: quant.stackexchange.com/q/121/108 podem ser de alguma utilidade.
precisa saber é o seguinte
2
excelente pergunta e resposta no link - graças - sim, este é o lugar onde eu estava indo :)
Ram Ahluwalia

Respostas:

21

Você pode usar qualquer uma das normas (consulte a Wikipedia em uma variedade de normas; observe que a raiz quadrada da soma das distâncias ao quadrado, \ sqrt {\ sum_ {i, j} (a_ {ij} -b_ {ij}) ^ 2} , é chamada norma Frobenius e é diferente da norma L_2 , que é a raiz quadrada do maior autovalor de (AB) ^ 2 , embora, é claro, eles gerassem a mesma topologia). A distância KL entre as duas distribuições normais com a mesma média (digamos zero) e as duas matrizes de covariância específicas também está disponível na Wikipedia como \ frac12 [\ mbox {tr} (A ^ {- 1} B) - \ mbox {ln } (| B | / | A |)] .ABpi,j(aijbij)2L2(AB)212[tr(A1B)ln(|B|/|A|)]

Editar: se uma das matrizes é uma matriz implícita no modelo e a outra é a matriz de covariância da amostra, é claro que você pode formar um teste de razão de verossimilhança entre as duas. Minha coleção pessoal favorita desses testes para estruturas simples é apresentada em Rencher (2002) Methods of Multivariate Analysis . Casos mais avançados são abordados na modelagem da estrutura de covariância, na qual um ponto de partida razoável é Equações Estruturais de Bollen (1989) com Variáveis ​​Latentes .

StasK
fonte
Eu tenho um problema com : ele não fornece o mesmo valor se você permitir e (uma distância real deve ser simétrica). 1/2(tr(A1B)log(|B|/|A|))AB
user603
Eu tenho um problema com : não é equivariante afim (se você girar as matrizes, a distância muda!). Além disso, você deve, de alguma forma, escalar suas matrizes (elas podem ser medidas em unidades muito diferentes). Além disso, é natural exigir que a distância entre duas matrizes de covariância seja a mesma que a distância entre as matrizes de correlação correspondentes: por isso sugiro . (AB)2(Adet(A)1/pBdet(B)1/p)2
user603
2
Primeiro, KL não é uma distância real, e isso é um fato bem conhecido. Segundo, se as matrizes são medidas em unidades diferentes, elas não podem ser iguais.
StasK
A distância KL é semelhante à razão de verossimilhança ou estão relacionadas?
hashmuke
7

Indique e suas matrizes da dimensão .Σ1Σ2p

  1. Número da : que ( ) é o maior (menor) autovalor de , em que é definido como: log(λ1)log(λp)λ1λpΣΣΣ:=Σ11/2Σ2Σ11/2

Editar: editei a segunda das duas propostas. Eu acho que não entendi a pergunta. A proposta com base nos números de condição é muito usada em estatísticas robustas para avaliar a qualidade do ajuste. Uma fonte antiga que eu poderia encontrar é:

Yohai, VJ e Maronna, RA (1990). O desvio máximo de covariâncias robustas. Comunicações em Estatística - Teoria e Métodos, 19, 3925-2933.

Eu incluí originalmente a medida da relação Det:

  1. Taxa de : que .log(det(Σ)/det(Σ2)det(Σ1))Σ=(Σ1+Σ2)/2

que seria a distância de Bhattacharyya entre duas distribuições gaussianas com o mesmo vetor de localização. Devo ter lido originalmente a pergunta como pertencente a um cenário em que as duas covariâncias eram provenientes de amostras de populações que se supunha terem meios iguais.

user603
fonte
4

A distância da matriz de covariância é usada para rastrear objetos no Computer Vision.

A métrica usada atualmente é descrita no artigo: "Uma métrica para matrizes de covariância" , de Förstner e Moonen.

Andres Romero
fonte