Por que a ANOVA é ensinada / usada como se fosse uma metodologia de pesquisa diferente em comparação à regressão linear?

91

ANOVA é equivalente a regressão linear com o uso de variáveis ​​dummy adequadas. As conclusões permanecem as mesmas, independentemente de você usar ANOVA ou regressão linear.

À luz de sua equivalência, existe alguma razão pela qual ANOVA é usada em vez de regressão linear?

Nota: Estou particularmente interessado em ouvir sobre razões técnicas para o uso de ANOVA em vez de regressão linear.

Editar

Aqui está um exemplo usando ANOVA unidirecional. Suponha que você queira saber se a altura média de homens e mulheres é a mesma. Para testar sua hipótese, você coletaria dados de uma amostra aleatória de homens e mulheres (digamos 30 cada) e executaria a análise ANOVA (isto é, soma dos quadrados por sexo e erro) para decidir se existe um efeito.

Você também pode usar a regressão linear para testar isso da seguinte maneira:

Definir: se o entrevistado for do sexo masculino e 0 no caso contrário. Altura = Interceptação + β Gênero + erro em que: erro N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

β=0

ung
fonte
2
Se não me engano, regressão linear é a estimativa de coeficientes que definem um bom mapa linear de X a Y. ANOVA é um teste para saber se há diferenças significativas em X quando Y assume dois valores diferentes. Você pode nos explicar por que você acha que eles são iguais?
Robin girard
28
A ANOVA pode ser vista como "açúcar sintático" para um subgrupo especial de modelos de regressão linear. A ANOVA é usada regularmente por pesquisadores que não são estatísticos por treinamento. Eles são agora "institucionalizado" e é difícil convertê-los de volta a usar a representação mais geral ;-)
suncoolsu
3
βββ

Respostas:

55

Como economista, a análise de variância (ANOVA) é ensinada e geralmente entendida em relação à regressão linear (por exemplo, no curso de econometria de Arthur Goldberger ). Economistas / econométricos normalmente vêem a ANOVA como desinteressante e preferem passar direto para os modelos de regressão. Da perspectiva dos modelos lineares (ou mesmo lineares generalizados), a ANOVA atribui coeficientes em lotes, com cada lote correspondendo a uma "fonte de variação" na terminologia da ANOVA.

Geralmente, você pode replicar as inferências que obteria da ANOVA usando regressão, mas nem sempre a regressão OLS. Modelos multiníveis são necessários para analisar estruturas hierárquicas de dados, como "projetos de plotagem dividida", em que os efeitos entre grupos são comparados a erros no nível do grupo e os efeitos dentro do grupo são comparados aos erros no nível dos dados. O artigo de Gelman [1] entra em grandes detalhes sobre esse problema e argumenta efetivamente que a ANOVA é uma importante ferramenta estatística que ainda deve ser ensinada por si mesma.

Gelman, em particular, argumenta que a ANOVA é uma maneira de entender e estruturar modelos multiníveis. Portanto, a ANOVA não é uma alternativa à regressão, mas como uma ferramenta para resumir inferências complexas de alta dimensão e para análise exploratória de dados.

Gelman é um estatístico respeitado e alguma credibilidade deve ser dada à sua opinião. No entanto, quase todo o trabalho empírico que eu faço seria igualmente bem servido pela regressão linear e, portanto, caio firmemente no campo de vê-lo como um pouco inútil. Algumas disciplinas com desenhos de estudos complexos (por exemplo, psicologia) podem achar ANOVA útil.

[1] Gelman, A. (2005). Análise de variância: por que é mais importante do que nunca (com discussão). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Graham Cookson
fonte
1
Obrigado pela referência Gelman. Vou ler o jornal dele. Mas, não podemos analisar modelos multiníveis usando a máxima verossimilhança clássica? Concordo que o OLS é ineficiente / inadequado para modelos de vários níveis.
3
@ Krikant - existem muitas maneiras de lidar com dados multiníveis e Gelman é "o rei" desse campo. Seu argumento é que a ANOVA é um método simples / claro de capturar os principais recursos de estruturas de dados complexas e hierárquicas ou desenhos de estudos e a ANOVA é uma maneira simples / clara de apresentar os principais resultados. Nesse sentido, seu papel é complementar ou exploratório.
Graham Cookson 23/07
1
+1 para uma boa resposta clara. O parágrafo 3 é essencialmente o que me foi ensinado na graduação em biologia, com ênfase na facilidade de combinar variáveis ​​independentes contínuas e categóricas em uma estrutura ANOVA.
precisa
23

Penso que o segundo parágrafo de Graham chega ao cerne da questão. Suspeito que não seja tão técnico quanto histórico, provavelmente devido à influência de " Métodos Estatísticos para Pesquisadores " e à facilidade de ensinar / aplicar a ferramenta para não estatísticos em análises experimentais envolvendo fatores discretos, em vez de investigar a construção de modelos e ferramentas associadas. Em estatística, a ANOVA é geralmente ensinada como um caso especial de regressão. (Acho que isso é semelhante ao motivo pelo qual a bioestatística é preenchida com uma infinidade de "testes" de mesmo nome, em vez de enfatizar a construção de modelos.)

ars
fonte
14

Eu diria que alguns de vocês estão usando o termo regressão quando deveriam usar o modelo linear geral. Penso na regressão como um filme que envolve covariáveis ​​contínuas. Quando covariáveis ​​contínuas são combinadas com variáveis ​​fictícias que devem ser chamadas de análise de covariância. Se apenas variáveis ​​fictícias são usadas, nos referimos a essa forma especial de glm como análise de variância. Penso que a análise de variância tem um segundo significado distinto como o procedimento para testar coeficientes significativos em um glm usando a decomposição da variância em componentes de termos de modelo e o componente de termo de erro.

Michael Chernick
fonte
2
(+1) Também observei imediatamente a terminologia ambígua "regressão" ao longo da discussão.
Stéphane Laurent
1
(+1) O GLM pode ser a melhor maneira de separar significados diferentes. Deve-se notar também que, na história da ANOVA, foram utilizados procedimentos de cálculo que obscurecem a relação entre OLS e ANOVA. A nomenclatura pode, portanto, ser justificada por razões históricas.
Jank
10

A ANOVA pode ser usada com variáveis ​​explicativas categóricas (fatores) que levam mais de 2 valores (níveis) e fornece um teste básico de que a resposta média é a mesma para todos os valores. Isso evita o problema de regressão ao realizar vários testes t em pares entre esses níveis:

  • Múltiplos testes t em um nível fixo de significância de 5% fariam aproximadamente 5% deles dar resultados errados.
  • Esses testes não são independentes um do outro. A comparação dos níveis de A com os B é conectada à comparação de A e C, pois os dados de A são usados ​​nos dois testes.

É melhor usar contrastes para diferentes combinações nos níveis de fator que você deseja testar.

Ηλίας
fonte
1
α=.05
7
(3) sua resposta implica que o problema de múltiplas comparações se aplica à regressão OLS, o que não ocorre quando conduzido adequadamente. A maneira correta de testar um fator em um contexto de regressão é testar o modelo aninhado com todos os manequins de fator descartados em relação ao modelo completo com todos os manequins de fator incluídos. Este teste é idêntico ao realizado por uma ANOVA. É verdade que você não deve usar os testes das variáveis ​​fictícias individuais (que eu suspeito é o que você está tentando descrever aqui).
gung
3

ANOVA você está testando se há uma diferença significativa entre a população significa supondo que você está comparando mais de duas médias da população e, em seguida, você vai usar um teste F.

Na análise de regressão, você constrói um modelo entre variáveis ​​independentes e uma variável dependente. Se você tiver uma variável independente com quatro níveis, poderá usar três variáveis ​​fictícias e executar um modelo de regressão. O teste F para o modelo de regressão usado para testar a significância do modelo de regressão é o mesmo que o F obtido ao testar a diferença entre as médias da população. Se você executar uma regressão passo a passo, algumas das variáveis ​​fictícias poderão ser retiradas do modelo e seu valor F será diferente daquele quando você executar o teste ANOVA.

Jamal
fonte
5
Isso faz da ANOVA um procedimento de teste e a regressão como um procedimento de modelagem no qual você pode realizar testes. Mas a ANOVA também possui um modelo subjacente, independentemente de isso ser enfatizado em todos os tratamentos introdutórios. Portanto, essa resposta não captura nenhuma diferença entre eles. Tampouco é abordado na questão, e é por isso que eles são ensinados como diferentes, independentemente de fortes semelhanças.
Nick Cox