ANOVA é equivalente a regressão linear com o uso de variáveis dummy adequadas. As conclusões permanecem as mesmas, independentemente de você usar ANOVA ou regressão linear.
À luz de sua equivalência, existe alguma razão pela qual ANOVA é usada em vez de regressão linear?
Nota: Estou particularmente interessado em ouvir sobre razões técnicas para o uso de ANOVA em vez de regressão linear.
Editar
Aqui está um exemplo usando ANOVA unidirecional. Suponha que você queira saber se a altura média de homens e mulheres é a mesma. Para testar sua hipótese, você coletaria dados de uma amostra aleatória de homens e mulheres (digamos 30 cada) e executaria a análise ANOVA (isto é, soma dos quadrados por sexo e erro) para decidir se existe um efeito.
Você também pode usar a regressão linear para testar isso da seguinte maneira:
Definir: se o entrevistado for do sexo masculino e 0 no caso contrário. Altura = Interceptação + β ∗ Gênero + erro em que: erro ∼ N ( 0 , σ 2 )
fonte
Respostas:
Como economista, a análise de variância (ANOVA) é ensinada e geralmente entendida em relação à regressão linear (por exemplo, no curso de econometria de Arthur Goldberger ). Economistas / econométricos normalmente vêem a ANOVA como desinteressante e preferem passar direto para os modelos de regressão. Da perspectiva dos modelos lineares (ou mesmo lineares generalizados), a ANOVA atribui coeficientes em lotes, com cada lote correspondendo a uma "fonte de variação" na terminologia da ANOVA.
Geralmente, você pode replicar as inferências que obteria da ANOVA usando regressão, mas nem sempre a regressão OLS. Modelos multiníveis são necessários para analisar estruturas hierárquicas de dados, como "projetos de plotagem dividida", em que os efeitos entre grupos são comparados a erros no nível do grupo e os efeitos dentro do grupo são comparados aos erros no nível dos dados. O artigo de Gelman [1] entra em grandes detalhes sobre esse problema e argumenta efetivamente que a ANOVA é uma importante ferramenta estatística que ainda deve ser ensinada por si mesma.
Gelman, em particular, argumenta que a ANOVA é uma maneira de entender e estruturar modelos multiníveis. Portanto, a ANOVA não é uma alternativa à regressão, mas como uma ferramenta para resumir inferências complexas de alta dimensão e para análise exploratória de dados.
Gelman é um estatístico respeitado e alguma credibilidade deve ser dada à sua opinião. No entanto, quase todo o trabalho empírico que eu faço seria igualmente bem servido pela regressão linear e, portanto, caio firmemente no campo de vê-lo como um pouco inútil. Algumas disciplinas com desenhos de estudos complexos (por exemplo, psicologia) podem achar ANOVA útil.
[1] Gelman, A. (2005). Análise de variância: por que é mais importante do que nunca (com discussão). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
fonte
Penso que o segundo parágrafo de Graham chega ao cerne da questão. Suspeito que não seja tão técnico quanto histórico, provavelmente devido à influência de " Métodos Estatísticos para Pesquisadores " e à facilidade de ensinar / aplicar a ferramenta para não estatísticos em análises experimentais envolvendo fatores discretos, em vez de investigar a construção de modelos e ferramentas associadas. Em estatística, a ANOVA é geralmente ensinada como um caso especial de regressão. (Acho que isso é semelhante ao motivo pelo qual a bioestatística é preenchida com uma infinidade de "testes" de mesmo nome, em vez de enfatizar a construção de modelos.)
fonte
Eu diria que alguns de vocês estão usando o termo regressão quando deveriam usar o modelo linear geral. Penso na regressão como um filme que envolve covariáveis contínuas. Quando covariáveis contínuas são combinadas com variáveis fictícias que devem ser chamadas de análise de covariância. Se apenas variáveis fictícias são usadas, nos referimos a essa forma especial de glm como análise de variância. Penso que a análise de variância tem um segundo significado distinto como o procedimento para testar coeficientes significativos em um glm usando a decomposição da variância em componentes de termos de modelo e o componente de termo de erro.
fonte
A ANOVA pode ser usada com variáveis explicativas categóricas (fatores) que levam mais de 2 valores (níveis) e fornece um teste básico de que a resposta média é a mesma para todos os valores. Isso evita o problema de regressão ao realizar vários testes t em pares entre esses níveis:
É melhor usar contrastes para diferentes combinações nos níveis de fator que você deseja testar.
fonte
ANOVA você está testando se há uma diferença significativa entre a população significa supondo que você está comparando mais de duas médias da população e, em seguida, você vai usar um teste F.
Na análise de regressão, você constrói um modelo entre variáveis independentes e uma variável dependente. Se você tiver uma variável independente com quatro níveis, poderá usar três variáveis fictícias e executar um modelo de regressão. O teste F para o modelo de regressão usado para testar a significância do modelo de regressão é o mesmo que o F obtido ao testar a diferença entre as médias da população. Se você executar uma regressão passo a passo, algumas das variáveis fictícias poderão ser retiradas do modelo e seu valor F será diferente daquele quando você executar o teste ANOVA.
fonte