Os intervalos de confiança para os coeficientes de regressão linear devem basear-se na distribuição normal ou

Vamos ter um modelo linear, por exemplo, ANOVA simples:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

O resultado é o seguinte:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

Agora eu tento dois métodos diferentes para estimar o intervalo de confiança desses parâmetros

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Questões:

Qual é a distribuição dos coeficientes de regressão linear estimados? Normal ou ? $t$
Por que os dois métodos produzem resultados diferentes? Assumindo distribuição normal e SE correta, eu esperaria que ambos os métodos tivessem o mesmo resultado.

Muito obrigado!

dados ~ 0 + fato

EDITAR depois de uma resposta :

A resposta é exata, isso dará exatamente o mesmo resultado que confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval Curioso
fonte

relacionado: stats.stackexchange.com/questions/111559/…

Curioso

Respostas:

(1) Quando os erros são normalmente distribuídos e sua variação é não conhecida, em seguida, tem um-distribuição sob a hipótese nula de queé o coeficiente de regressão verdadeiro. O padrão noé testar, então os-Estatísticas relatou há apenas

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

Observe que, sob algumas condições de regularidade, a estatística acima é sempre normalmente assintoticamente distribuída, independentemente de os erros serem normais ou de a variação de erros ser conhecida.

$t$

Especificamente, lembre-se de que o intervalo de confiança usando a distribuição normal é

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

$z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

$t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

$t$ $5$ $300$ $p=1$ $t$ $z$

insira a descrição da imagem aqui

Macro
fonte

Sim!! Bom trabalho !! (+1)

gui11aume

Macro, obrigado pela resposta. Mas: você fala sobre a distribuição das estatísticas T, enquanto eu perguntei sobre a distribuição do coeficiente de regressão. Entendo que o coeficiente de regressão é uma distribuição caracterizada por sua média (a estimativa do coeficiente) e seu erro padrão. Perguntei sobre essa distribuição, não sobre a distribuição de estatísticas de teste. Eu poderia perder alguma coisa por isso, tentar explicar de forma mais óbvia :) Obrigado

Curious

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$

Você está exatamente certo! Isso dará exatamente o mesmo resultado que confint(m1), mesmo para amostras pequenas! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

curioso

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$