R: Anova e regressão linear

9

Eu sou novo em estatística e estou tentando entender a diferença entre ANOVA e regressão linear. Estou usando R para explorar isso. Eu li vários artigos sobre por que a ANOVA e a regressão são diferentes, mas ainda são as mesmas, e como elas podem ser visualizadas, etc.

Entendo que o ANOVA compara a variação dentro dos grupos com a variação entre os grupos para determinar se existe ou não uma diferença entre qualquer um dos grupos testados. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Para regressão linear, encontrei um post neste fórum que diz que o mesmo pode ser testado quando testamos se b (inclinação) = 0. ( Por que a ANOVA é ensinada / usada como se fosse uma metodologia de pesquisa diferente em comparação à regressão linear? )

Por mais de dois grupos, encontrei um site informando:

A hipótese nula é:H0 0:µ1=µ2=µ3

O modelo de regressão linear é:y=b0 0+b1X1+b2X2+e

O resultado da regressão linear é, no entanto, o intercepto para um grupo e a diferença para esse intercepto para os outros dois grupos. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Para mim, parece que, na verdade, as interceptações são comparadas e não as pistas?

Outro exemplo em que eles comparam interceptações em vez de declives pode ser encontrado aqui: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Agora estou lutando para entender o que é realmente comparado na regressão linear? as encostas, as interceptações ou ambas?

Paulo
fonte
Veja também stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Respostas:

16

parece que, na verdade, as interceptações são comparadas e não as pistas?

Sua confusão está relacionada ao fato de que você deve ter muito cuidado para esclarecer quais intercepções e inclinações você quer dizer (interceptação de quê? Inclinação de quê?).

O papel de um coeficiente de um manequim 0-1 em uma regressão pode ser pensado tanto como uma inclinação quanto como uma diferença de interceptações.

Vamos simplificar as coisas o máximo possível, considerando um caso de duas amostras.

Ainda podemos fazer ANOVA unidirecional com duas amostras, mas essencialmente é o mesmo que um teste t bicaudal de duas amostras (o caso de variância igual).

Aqui está um diagrama da situação da população:

dois grupos significa como regressão, situação da população

Se , o modelo linear da população éδ=μ2-μ1

y=μ1+δx+e

de modo que quando (que é o caso quando estamos no grupo 1), a média de é e quando (quando estamos no grupo 2) , a média de é .y μ 1 + δ × 0 = μ 1 x = 1 y μ 1 + δ × 1 = μ 1 + μ 2 - μ 1 = μ 2x=0 0yμ1+δ×0 0=μ1x=1yμ1+δ×1=μ1+μ2-μ1=μ2

Esse é o coeficiente da inclinação ( neste caso) e a diferença de médias (e você pode pensar nesses meios como interceptações) é a mesma quantidade.δ

Para ajudar com a concretude, aqui estão duas amostras:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Como eles se parecem?

parcela da amostra

Como é o teste de diferença de meios?

Como teste t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Como uma regressão:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Podemos ver na regressão que o termo de interceptação é a média do grupo 1 e o coeficiente do grupo g2 (coeficiente 'slope') é a diferença nas médias do grupo. Enquanto isso, o valor p para a regressão é o mesmo que o valor p para o teste t (0,003976)

Glen_b -Reinstate Monica
fonte
Muito obrigado por este exemplo extremamente útil. Acabei de perceber que ainda há uma pergunta em aberto. Não entendo por que a inclinação é denotada como μ2 − μ1? A inclinação não é definida como m = delta Y / delta X ??
Paul
2
Δx=1-0 0=1Δy=(μ1+δ×1)-(μ1+δ×0 0)=δ=μ2-μ1Δy/Δx=(μ2-μ1)/1=μ2-μ1
Marcou com +1 a ilustração gráfica de por que a inclinação é igual à diferença de médias me ajudou muito !!
Haitao Du