Como interpretar uma covariância inversa ou matriz de precisão?

64

Fiquei me perguntando se alguém poderia me indicar algumas referências que discutem a interpretação dos elementos da matriz de covariância inversa, também conhecida como matriz de concentração ou matriz de precisão.

Eu tenho acesso às Dependências Multivariadas de Cox e Wermuth , mas o que estou procurando é uma interpretação de cada elemento na matriz inversa. A Wikipedia afirma : "Os elementos da matriz de precisão têm uma interpretação em termos de correlações parciais e variações parciais", o que me leva a esta página. Existe uma interpretação sem o uso de regressão linear? Ou seja, em termos de covariâncias ou geometria?

Vinh Nguyen
fonte
4
você leu a página inteira da Wikipedia? Há uma seção sobre geometria e independência condicional para a distribuição normal. Você pode encontrar mais neste livro .
NRH 14/05
@NRH A geometria é explicada na página de correlação parcial, que ainda não tenho certeza de como ela se relaciona com a matriz de concentração. Esse livro de modelos gráficos tem uma explicação dos elementos da matriz de concentração? Obrigado!
Vinh Nguyen
veja a resposta abaixo.
NRH 16/05

Respostas:

34

Existem basicamente duas coisas a serem ditas. A primeira é que, se você observar a densidade da distribuição normal multivariada (com média 0 aqui), ela é proporcional a que é o inverso da matriz de covariância, também chamada precisão. Essa matriz é positiva definida e define via um produto interno em . A geometria resultante, que dá significado específico ao conceito de ortogonalidade e define uma norma relacionada à distribuição normal, é importante e para entender, por exemplo, o conteúdo geométrico do LDA necessário para visualizar as coisas à luz da geometria dada por

exp(12xTPx)
P=Σ1
(x,y)xTPy
RpP .

A outra coisa a ser dita é que as correlações parciais podem ser lidas diretamente de , veja aqui . A mesma página da Wikipedia indica que as correlações parciais e, portanto, as entradas de , têm uma interpretação geométrica em termos de cosseno em ângulo. O que é, talvez, mais importante no contexto de correlações parciais é que a correlação parcial entre e é 0 se e somente se a entrada em for zero. Para a distribuição normal, as variáveis e são então condicionalmente independentesPPXiXji,jPXiXjdadas todas as outras variáveis. É disso que trata o livro de Steffens, a que me referi no comentário acima. Independência condicional e modelos gráficos. Ele tem um tratamento bastante completo da distribuição normal, mas pode não ser tão fácil de seguir.

NRH
fonte
11
Desculpe, estou um pouco confuso com a fórmula da Wikipedia para correlação parcial; Eu já vi várias implementações usando (com um sinal de menos). Tem certeza de que a fórmula da Wikipedia está correta? pijpiipjj
21730 Sheljohn
11
@ Sh3ljohn, você está perfeitamente certo. Há um sinal de menos faltando na fórmula da Wikipedia.
NRH 02/07
A primeira resposta não está realmente falando mais sobre as informações de Fisher do que sobre a matriz de precisão? Quero dizer, eles coincidem no caso gaussiano realmente especial / agradável, mas geralmente não coincidem. Obviamente, os dois conceitos estão relacionados (limite inferior de Cramer-Rao, distribuição assintótica do MLE etc.), mas não parece útil confundi-los (especificamente, vim a essa pergunta procurando sua pergunta sobre como distinguir informações de Fisher e as matriz de correlação inversa).
precisa saber é o seguinte
24

Eu gosto deste modelo gráfico probabilístico para ilustrar o ponto de NRH de que a correlação parcial é zero se e somente se X for condicionalmente independente de Y, dado Z, com a suposição de que todas as variáveis ​​envolvidas são gaussianas multivariadas (a propriedade não se aplica no caso geral) :

insira a descrição da imagem aqui

( são variáveis ​​aleatórias gaussianas; ignore T e k)yi

Fonte: Palestra de David MacKay sobre Gaussian Process Basics , 25 minutos.

Franck Dernoncourt
fonte
12

A interpretação baseada em correlações parciais é provavelmente a mais útil estatisticamente, uma vez que se aplica a todas as distribuições multivariadas. No caso especial da distribuição normal multivariada, a correlação parcial zero corresponde à independência condicional.

Você pode derivar essa interpretação usando o complemento Schur para obter uma fórmula para as entradas da matriz de concentração em termos das entradas da matriz de covariância. Veja http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics

vqv
fonte
11

A matriz de covariância pode representar a relação entre todas as variáveis ​​enquanto a covariância inversa, relaciona a relação do elemento com seus vizinhos (como a wikipedia disse na relação parcial / par).

Tomo emprestado o exemplo a seguir daqui em 24:10, imagine que 5 massas estejam conectadas e vogando com 6 molas, a matriz de covariância conteria correlação de todas as massas; se uma der certo, outras também darão certo. mas a matriz de covariância inversa sustenta a relação daquelas massas que são conectadas pela mesma mola (vizinhos) e contém muitos zeros e seu positivo não é necessário.

user4581
fonte
11
Onde isso é explicado no vídeo? É uma hora. Obrigado!
Vinh Nguyen
você está certo, seu sobre 24:10, eu acho que isso é o melhor exemplo para entender a natureza da matriz cov e seu inverso
user4581
5

Bar-Shalom e Fortmann (1988) mencionam a covariância inversa no contexto da filtragem de Kalman da seguinte forma:

... [T] aqui está uma recursão pela covariância inversa (ou matriz de informações )

P1(k+1|k+1)=P1(k+1|k)+H(k+1)R1(k+1)H(k+1)

... De fato, um conjunto completo de equações de previsão e atualização, conhecido como filtro de informações [8, 29, 142], pode ser desenvolvido para a covariância inversa e um vetor de estado transformado .P1x^

O livro está indexado no Google .

estrela Brilhante
fonte