Eu sou novo em estatística e estou tentando entender a diferença entre ANOVA e regressão linear. Estou usando R para explorar isso. Eu li vários artigos sobre por que a ANOVA e a regressão são diferentes, mas ainda são as mesmas, e como elas podem ser visualizadas, etc.
Entendo que o ANOVA compara a variação dentro dos grupos com a variação entre os grupos para determinar se existe ou não uma diferença entre qualquer um dos grupos testados. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
Para regressão linear, encontrei um post neste fórum que diz que o mesmo pode ser testado quando testamos se b (inclinação) = 0. ( Por que a ANOVA é ensinada / usada como se fosse uma metodologia de pesquisa diferente em comparação à regressão linear? )
Por mais de dois grupos, encontrei um site informando:
A hipótese nula é:
O modelo de regressão linear é:
O resultado da regressão linear é, no entanto, o intercepto para um grupo e a diferença para esse intercepto para os outros dois grupos. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Para mim, parece que, na verdade, as interceptações são comparadas e não as pistas?
Outro exemplo em que eles comparam interceptações em vez de declives pode ser encontrado aqui: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
Agora estou lutando para entender o que é realmente comparado na regressão linear? as encostas, as interceptações ou ambas?
fonte
Respostas:
Sua confusão está relacionada ao fato de que você deve ter muito cuidado para esclarecer quais intercepções e inclinações você quer dizer (interceptação de quê? Inclinação de quê?).
O papel de um coeficiente de um manequim 0-1 em uma regressão pode ser pensado tanto como uma inclinação quanto como uma diferença de interceptações.
Vamos simplificar as coisas o máximo possível, considerando um caso de duas amostras.
Ainda podemos fazer ANOVA unidirecional com duas amostras, mas essencialmente é o mesmo que um teste t bicaudal de duas amostras (o caso de variância igual).
Aqui está um diagrama da situação da população:
Se , o modelo linear da população éδ= μ2- μ1
de modo que quando (que é o caso quando estamos no grupo 1), a média de é e quando (quando estamos no grupo 2) , a média de é .y μ 1 + δ × 0 = μ 1 x = 1 y μ 1 + δ × 1 = μ 1 + μ 2 - μ 1 = μ 2x = 0 y μ1+ δ× 0 = μ1 x = 1 y μ1+ δ× 1 = μ1+ μ2- μ1= μ2
Esse é o coeficiente da inclinação ( neste caso) e a diferença de médias (e você pode pensar nesses meios como interceptações) é a mesma quantidade.δ
Para ajudar com a concretude, aqui estão duas amostras:
Como eles se parecem?
Como é o teste de diferença de meios?
Como teste t:
Como uma regressão:
Podemos ver na regressão que o termo de interceptação é a média do grupo 1 e o coeficiente do grupo g2 (coeficiente 'slope') é a diferença nas médias do grupo. Enquanto isso, o valor p para a regressão é o mesmo que o valor p para o teste t (0,003976)
fonte