Diferença entre teste t e ANOVA na regressão linear

12

Gostaria de saber quais são as diferenças entre o teste t e a ANOVA na regressão linear?

  1. É um teste t para testar se alguma das pistas e interceptação tem média zero, enquanto a ANOVA para testar se todas as pistas têm média zero? Essa é a única diferença entre eles?
  2. Na regressão linear simples, isto é, onde existe apenas uma variável preditora, existe apenas uma inclinação para estimar. Portanto, o teste t e a ANOVA são equivalentes e, se sim, como, dado que eles estão usando estatísticas diferentes (o teste t está usando a estatística t e a ANOVA está usando a estatística F)?
Tim
fonte
Anúncio 1) Na regressão linear, normalmente entendo a ANOVA como uma medida de qualidade de ajuste do modelo, ou seja, para decidir se o modelo (linha de regressão) explica parte substancial da variabilidade total. A questão, se é equivalente a todas as inclinações serem zero, é realmente muito interessante. Anúncio 2) parece que estou obtendo quase os mesmos valores p para teste t e ANOVA de regressão neste caso. Teorema realmente interessante!
Curioso

Respostas:

18

O modelo linear geral permite escrever um modelo ANOVA como modelo de regressão. Vamos supor que temos dois grupos com duas observações cada, ou seja, quatro observações em um vetor . O modelo superparametrizado original é E ( y ) = X β , onde X é a matriz de preditores, isto é, variáveis ​​indicadoras codificadas por dummy: ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 1 0yE(y)=XβX

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

μ1=β0β0μ2=β0+β2β2μ2μ1 para a categoria de referência. Como em dois grupos, existe apenas um parâmetro associado ao efeito de grupo, a hipótese nula ANOVA (todos os parâmetros de efeito de grupo são 0) é igual à hipótese nula de peso de regressão (o parâmetro de inclinação é 0).

tψ=cjβjψ0c=(0,1)β2=0μ2μ1=0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

σ^2=e2/(nRank(X)) is an unbiased estimator for the error variance, where e2 is the sum of the squared residuals. In the case of two groups Rank(X)=2, (XX)1X=(.5.500.5.5.5.5), and the estimators thus are β^0=0.5y1+0.5y2=M1 and β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1. With c(XX)1c being 1 in our case, the test statistic becomes:

t=M2M10σ^=M2M1e2/(n2)

t is t-distributed with nRank(X) df (here n2). When you square t, you get (M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=F, the test statistic from the ANOVA F-test for two groups (b for between, w for within groups) which follows an F-distribution with 1 and nRank(X) df.

With more than two groups, the ANOVA hypothesis (all βj are simultaneously 0, with 1j) refers to more than one parameter and cannot be expressed as a linear combination ψ, so then the tests are not equivalent.

caracal
fonte
3

In 1, ANOVA will usually test factor variables and whether or not between group variance is significant. You'll clearly see the difference if your software allows indicator variables in a regression: for each dummy you'll get a p value saying whether this group scores significantly different from 0, and as a consequence significantly different than the reference group or reference value applicable. Usually, you won't see to what degree the indicator itself is important until you do an ANOVA test.

A F-test is a squared t-test. Therefore, in 2, it's the same.

Labour
fonte
Thanks! (1) What do indicator variables mean here? (2) Generally, a t-test is equivalent to ANOVA only when there are only two groups. But in simple linear regression there may be more than two groups, where the number of groups is the number of values the predictor variable takes in the data set.
Tim
(1) Indicator or categorical or factor variable ... all the same. (2) Indeed, but you may want to know how well a set of dummies/categories scores from ANOVA.
Labour
Thanks! (2) So in simple linear regression, how is t-test equivalent to ANOVA, given that there are more than two groups? What does "how well a set of dummies/categories scores from ANOVA" mean, and why do I want to know it?
Tim
In OLS regression, R² (explained variance) will be equal to eta² or MSS / TSS from ANOVA no matter how many groups you define. Next, you might want to know the contribution of a set of dummies (i.e. an indicator variable) to say whether the set itself is relevant and to what extent, which is different from the significance of the difference between one single category with the reference category.
Labour