Interpretação da saída lm () de R

234

As páginas de ajuda em R pressupõem que eu sei o que esses números significam, mas não sei. Estou tentando entender intuitivamente todos os números aqui. Vou postar a saída e comentar o que descobri. Pode haver (haverá) erros, pois vou escrever o que presumo. Gostaria principalmente de saber o que o valor t significa nos coeficientes e por que eles imprimem o erro padrão residual.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Este é um resumo de 5 pontos dos resíduos (a média é sempre 0, certo?). Os números podem ser usados ​​(suponho aqui) para ver rapidamente se existem grandes outliers. Além disso, você já pode vê-lo aqui se os resíduos estiverem longe de serem normalmente distribuídos (eles devem ser normalmente distribuídos).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Estimativas , calculadas por regressão de mínimos quadrados. Além disso, o erro padrão é . Eu gostaria de saber como isso é calculado. Não faço ideia de onde vêm o valor t e o valor p correspondente. Eu sei que deve ser distribuído normalmente, mas como é calculado o valor t? σβiβi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , eu acho. Mas por que calculamos isso e o que isso nos diz?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

n i = 1 ( ^ y i -R2=sy^2sy2 , que é . A proporção é próxima de 1 se os pontos estiverem em uma linha reta e 0 se forem aleatórios. Qual é o quadrado R ajustado?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F e p para todo o modelo, não apenas para s como anteriormente. O valor F é . Quanto maior, mais improvável é que os não tenham nenhum efeito.s 2βi βsy^2ϵiβ

Alexander Engelhardt
fonte
os resíduos não se desviam tanto da normalidade, por que você acha isso?
Nico 04/04
@nico: Eu acho que @Alexx Hardt estava falando hipoteticamente. Ou seja, uma vez que poderia usar o resumo dos cinco números para ver se os resíduos foram desviar do normal
Gavin Simpson
@ Gavin Simpson: você está certo, eu li mal a frase. Desconsidere meu comentário anterior.
Nico
9
Qualificação menor: você não pode dizer nada sobre normalidade ou não normalidade apenas com base nesses 5 quantis. Tudo o que você pode dizer com base nesse resumo é se os resíduos estimados são aproximadamente simétricos em torno de zero. Você pode dividir os quantis relatados pelo erro padrão residual estimado e comparar esses valores com os respectivos quantis de N (0,1), mas observar um gráfico QQ provavelmente faz mais sentido.
Fabian
5
Uma observação aqui: o modelo não é , mas sim . é descrito corretamente na resposta abaixo, mas não menciona explicitamente que está descaracterizado na pergunta; portanto, alguém pode não notar a discrepância. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Respostas:

202

Resumo de cinco pontos

Sim, a ideia é fornecer um resumo rápido da distribuição. Deve ser aproximadamente simétrico em relação à média, a mediana deve estar próxima de 0, os valores 1T e 3T devem idealmente ser valores aproximadamente semelhantes.

Coeficientes eβi^s

Cada coeficiente no modelo é uma variável aleatória Gaussiana (Normal). O é a estimativa da média da distribuição dessa variável aleatória, e o erro padrão é a raiz quadrada da variação dessa distribuição. É uma medida da incerteza na estimativa do .βi^βi^

Você pode ver como elas são computadas (bem as fórmulas matemáticas usadas) na Wikipedia . Observe que qualquer programa de estatísticas que se preze não usará as equações matemáticas padrão para calcular o pois fazê-las em um computador pode levar a uma grande perda de precisão nos cálculos.βi^

testatísticas

As estatísticas são as estimativas ( ) divididas por seus erros padrão ( ), por exemplo, . Supondo que você tenha o mesmo modelo em objeto que seu Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

os valores relatórios R são calculados como:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Onde coef(mod)estão e fornecem as raízes quadradas dos elementos diagonais da matriz de covariância dos parâmetros do modelo, que são os erros padrão dos parâmetros ( ).βi^sqrt(diag(vcov(mod)))σi^

O valor p é a probabilidade de atingir atão grande quanto ou maior que o valor absoluto t observado, se a hipótese nula ( ) for verdadeira, onde é . Eles são calculados como (usando de cima):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Portanto, calculamos a probabilidade da cauda superior de alcançar os valores que fizemos a partir de uma distribuição com graus de liberdade iguais aos graus residuais de liberdade do modelo. Isso representa a probabilidade de atingir um valor superior aos valores absolutos dos s observados . Ele é multiplicado por dois, por causa do campo de pode ser grande na direcção negativa demasiado.ttttt

Erro padrão residual

O erro padrão residual é uma estimativa do parâmetro . A suposição em mínimos quadrados comuns é que os resíduos são descritos individualmente por uma distribuição Gaussiana (normal) com média 0 e desvio padrão . O refere-se à suposição de variância constante; cada resíduo tem a mesma variação e essa variação é igual a .σσσσ2

ajustadoR2

ajustado é calculado como:R2

1(1R2)n1np1

O ajustado é o mesmo que , mas ajustado pela complexidade (isto é, o número de parâmetros) do modelo. Dado um modelo com um único parâmetro, com um determinado , se adicionarmos outro parâmetro a esse modelo, o do novo modelo precisará aumentar, mesmo que o parâmetro adicionado não tenha poder estatístico. O ajustado é responsável por isso, incluindo o número de parâmetros no modelo.R2R2R2R2R2

FEstatística

O é a relação de dois desvios ( ), a variância explicada pelos parâmetros do modelo (soma dos quadrados de regressão, SSR) e a variância residual ou inexplicada (soma dos quadrados dos erros, SSE). Você pode ver isso melhor se obtivermos a tabela ANOVA para o modelo via :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Os são os mesmos na saída ANOVA e na saída. A coluna contém as duas variações e . Podemos calcular a probabilidade de obter um tão grande sob a hipótese nula de nenhum efeito, a partir de uma distribuição com 1 e 148 graus de liberdade. É o que é relatado na coluna final da tabela ANOVA. No caso simples de um único preditor contínuo (como no seu exemplo), , e é por isso que os valores-p são os mesmos. Essa equivalência é válida apenas neste caso simples.F3,7945 / 0,1656 = 22,91 F F F = t 2 P e t a l . W i d t hsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2

Gavin Simpson
fonte
5
@ Gavin (+1) Ótima resposta com boas ilustrações!
chl
2
Bom trabalho. Uma coisa que você pode esclarecer, com relação ao cálculo dos valores de t: sqrt (diag (vcov (mod))) produz o SE das estimativas. Esses são os mesmos SEs emitidos no resumo do modelo. Mais fácil e claro apenas para dizer que t = Estimativa / Estimativa. Nesse sentido, não é diferente de qualquer outro valor t.
Brett
2
(+1) Isso é ótimo. A única coisa que eu acrescentaria é que o valor é o mesmo que para a inclinação (e é por isso que os valores p são iguais). Isso - é claro - não é verdade com várias variáveis ​​explicativas. t 2Ft2
2
@Jay; obrigado. Também pensei em mencionar essa equivalência. Não tinha certeza se eram muitos detalhes ou não? Vou anunciar algo sobre isso daqui a um mês.
Gavin Simpson
2
"não usará as equações matemáticas padrão para calcular" O que eles usarão?
SmallChess
0

Ronen Israel e Adrienne Ross (AQR) escreveram um artigo muito interessante sobre esse assunto: Medição de exposições de fatores: usos e abusos .

Para resumir (consulte: p. 8),

  • Geralmente, quanto maior o melhor o modelo explica os retornos do portfólio.R2
  • Quando a estatística t é maior que dois, podemos dizer com 95% de confiança (ou 5% de chance de estarmos errados) que a estimativa beta é estatisticamente diferente de zero. Em outras palavras, podemos dizer que uma carteira possui uma exposição significativa a um fator.

O lm()resumo de R calcula o valor-p Pr(>|t|). Quanto menor o valor-p, mais significativo é o fator. O valor P = 0,05 é um limite razoável.

Steve Lihn
fonte
6
Os tipos de distorção neste artigo, exemplificados por "Quando a estatística t é maior que dois, podemos dizer (com ... uma chance de 5% de estarmos errados) que a estimativa beta é estatisticamente diferente de zero" [at p . 11], são discutidos em stats.stackexchange.com/questions/311763 e stats.stackexchange.com/questions/26450 .
whuber