Qual é a interpretação da covariância dos coeficientes de regressão?

13

A função lm em R pode imprimir a covariância estimada dos coeficientes de regressão. O que essas informações nos fornecem? Agora podemos interpretar melhor o modelo ou diagnosticar problemas que possam estar presentes no modelo?

mss
fonte
1
A mesma interpretação que todas as outras covariâncias --- covariância linear? O principal uso é calcular a variação dos contrastes de interesse selecionados, por exemplo, para testar contrastes.
Kjetil b halvorsen

Respostas:

19

O uso mais básico da matriz de covariância é obter os erros padrão das estimativas de regressão. Se o pesquisador estiver interessado apenas nos erros padrão dos parâmetros de regressão individuais, eles podem simplesmente pegar a raiz quadrada da diagonal para obter os erros padrão individuais.

No entanto, muitas vezes você pode estar interessado em uma combinação linear de parâmetros de regressão. Por exemplo, se você tem uma variável indicadora para um determinado grupo, pode estar interessado na média do grupo, que seria

.β0+βgrp

Então, para encontrar o erro padrão da média estimada desse grupo, você teria

,XSX

onde é um vetor de seus contrastes e S é a matriz de covariância. No nosso caso, se tivermos apenas a covariável adição "grp", então X = ( 1 , 1 ) ( 1 para a interceptação, 1 para pertencer ao grupo).XSX=(1,1)11

Além disso, a matriz de covariância (ou mais acima, a matriz de correlação, que é identificada exclusivamente a partir da matriz de covariância, mas não vice-versa) pode ser muito útil para certos diagnósticos de modelos. Se duas variáveis ​​são altamente correlacionadas, uma maneira de pensar é que o modelo está tendo problemas para descobrir qual variável é responsável por um efeito (porque elas são muito relacionadas). Isso pode ser útil para uma variedade de casos, como escolher subconjuntos de covariáveis ​​para usar em um modelo preditivo; se duas variáveis ​​estiverem altamente correlacionadas, convém usar apenas uma das duas em seu modelo preditivo.

Cliff AB
fonte
Obrigado pela explicação. No seu último parágrafo, você está descrevendo os problemas que podem surgir quando variáveis ​​independentes são altamente colineares. Parece que seria mais fácil observar a covariância / correlação de s reais do que β s. V um r ( β ) = E ( ε 2 ) ( X ' X ) - 1 não é um inverso na fórmula. Xβ
Var(β^)=E(ε^2)(XX)1
mss
8

Existem dois "tipos" de coeficientes de regressão:

  1. βc
  2. Coeficientes de regressão estimadosbβ^c

XY|Cov(X,Y)|XYXY

bb1b2b1b2b1b2 .

b1b1 é elevado em relação ao seu erro padrão", e sua covariância ser "alta" média "de alta em relação ao produto de seus erros padrão." Uma maneira de suavizar esses soluços interpretativos é padronizar cada entrada de regressão dividindo-a pelo seu desvio padrão (ou dois desvios padrão em alguns casos).

Cov(b1,b2)

Quanto ao que é realmente usado, a resposta de Cliff AB é um bom resumo.

shadowtalker
fonte
Isso é legal, mas estou um pouco preocupado com a interpretação da covariância como se fosse uma correlação. Eu sei que você sabe a diferença, mas ela não aparece claramente. Também estou feliz que você tenha desafiado o comentário "um pouco de mentira", porque essa foi uma avaliação enganosa (em uma resposta bem satisfatória). De fato, a covariância debEu e bj para Eujfornece informações fundamentais e úteis sobre como essas estimativas são inter-relacionadas, como indica o @Cliff AB.
whuber
1
@ whuber obrigado, e eu realmente escrevi "correlação" em um ponto. Vou limpá-lo quando eu sair do meu telefone
shadowtalker
Como não consigo voltar a este tópico por um tempo, marque com +1 as edições!
whuber
cometi o mesmo erro na minha descrição!
Cliff AB
@whuber agora estou realmente adivinhando meu próprio entendimento de covariância. Meu problema é que não enfatizei o fato de que as escalas poderiam ser diferentes ou estou perdendo outra coisa? Me deparei com sua explicação "caixas" e eu não vejo o que poderia ser
shadowtalker