As páginas de ajuda em R pressupõem que eu sei o que esses números significam, mas não sei. Estou tentando entender intuitivamente todos os números aqui. Vou postar a saída e comentar o que descobri. Pode haver (haverá) erros, pois vou escrever o que presumo. Gostaria principalmente de saber o que o valor t significa nos coeficientes e por que eles imprimem o erro padrão residual.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Este é um resumo de 5 pontos dos resíduos (a média é sempre 0, certo?). Os números podem ser usados (suponho aqui) para ver rapidamente se existem grandes outliers. Além disso, você já pode vê-lo aqui se os resíduos estiverem longe de serem normalmente distribuídos (eles devem ser normalmente distribuídos).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estimativas , calculadas por regressão de mínimos quadrados. Além disso, o erro padrão é . Eu gostaria de saber como isso é calculado. Não faço ideia de onde vêm o valor t e o valor p correspondente. Eu sei que deve ser distribuído normalmente, mas como é calculado o valor t? σβi
Residual standard error: 0.407 on 148 degrees of freedom
, eu acho. Mas por que calculamos isso e o que isso nos diz?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
∑ n i = 1 ( ^ y i - , que é . A proporção é próxima de 1 se os pontos estiverem em uma linha reta e 0 se forem aleatórios. Qual é o quadrado R ajustado?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F e p para todo o modelo, não apenas para s como anteriormente. O valor F é . Quanto maior, mais improvável é que os não tenham nenhum efeito.s 2 β
fonte
Respostas:
Resumo de cinco pontos
Sim, a ideia é fornecer um resumo rápido da distribuição. Deve ser aproximadamente simétrico em relação à média, a mediana deve estar próxima de 0, os valores 1T e 3T devem idealmente ser valores aproximadamente semelhantes.
Coeficientes eβi^s
Cada coeficiente no modelo é uma variável aleatória Gaussiana (Normal). O é a estimativa da média da distribuição dessa variável aleatória, e o erro padrão é a raiz quadrada da variação dessa distribuição. É uma medida da incerteza na estimativa do .βi^ βi^
Você pode ver como elas são computadas (bem as fórmulas matemáticas usadas) na Wikipedia . Observe que qualquer programa de estatísticas que se preze não usará as equações matemáticas padrão para calcular o pois fazê-las em um computador pode levar a uma grande perda de precisão nos cálculos.βi^
As estatísticas são as estimativas ( ) divididas por seus erros padrão ( ), por exemplo, . Supondo que você tenha o mesmo modelo em objeto que seu Q:t βi^ σi^ ti=βi^σi^
mod
os valores relatórios R são calculados como:t
Ondeβi^ σi^
coef(mod)
estão e fornecem as raízes quadradas dos elementos diagonais da matriz de covariância dos parâmetros do modelo, que são os erros padrão dos parâmetros ( ).sqrt(diag(vcov(mod)))
O valor p é a probabilidade de atingir atão grande quanto ou maior que o valor absoluto t observado, se a hipótese nula ( ) for verdadeira, onde é . Eles são calculados como (usando de cima):|t| H0 H0 βi=0
tstats
Portanto, calculamos a probabilidade da cauda superior de alcançar os valores que fizemos a partir de uma distribuição com graus de liberdade iguais aos graus residuais de liberdade do modelo. Isso representa a probabilidade de atingir um valor superior aos valores absolutos dos s observados . Ele é multiplicado por dois, por causa do campo de pode ser grande na direcção negativa demasiado.t t t t t
Erro padrão residual
O erro padrão residual é uma estimativa do parâmetro . A suposição em mínimos quadrados comuns é que os resíduos são descritos individualmente por uma distribuição Gaussiana (normal) com média 0 e desvio padrão . O refere-se à suposição de variância constante; cada resíduo tem a mesma variação e essa variação é igual a .σ σ σ σ2
ajustadoR2
ajustado é calculado como:R2
O ajustado é o mesmo que , mas ajustado pela complexidade (isto é, o número de parâmetros) do modelo. Dado um modelo com um único parâmetro, com um determinado , se adicionarmos outro parâmetro a esse modelo, o do novo modelo precisará aumentar, mesmo que o parâmetro adicionado não tenha poder estatístico. O ajustado é responsável por isso, incluindo o número de parâmetros no modelo.R2 R2 R2 R2 R2
O é a relação de dois desvios ( ), a variância explicada pelos parâmetros do modelo (soma dos quadrados de regressão, SSR) e a variância residual ou inexplicada (soma dos quadrados dos erros, SSE). Você pode ver isso melhor se obtivermos a tabela ANOVA para o modelo via :F SSR/SSE
anova()
Os são os mesmos na saída ANOVA e na saída. A coluna contém as duas variações e . Podemos calcular a probabilidade de obter um tão grande sob a hipótese nula de nenhum efeito, a partir de uma distribuição com 1 e 148 graus de liberdade. É o que é relatado na coluna final da tabela ANOVA. No caso simples de um único preditor contínuo (como no seu exemplo), , e é por isso que os valores-p são os mesmos. Essa equivalência é válida apenas neste caso simples.F 3,7945 / 0,1656 = 22,91 F F F = t 2 P e t a l . W i d t h3.7945/0.1656=22.91 F F F=t2Petal.Width
summary(mod)
Mean Sq
fonte
Ronen Israel e Adrienne Ross (AQR) escreveram um artigo muito interessante sobre esse assunto: Medição de exposições de fatores: usos e abusos .
Para resumir (consulte: p. 8),
O
lm()
resumo de R calcula o valor-pPr(>|t|)
. Quanto menor o valor-p, mais significativo é o fator. O valor P = 0,05 é um limite razoável.fonte