ANOVA vs regressão linear múltipla? Por que a ANOVA é tão comumente usada em estudos experimentais?

24

ANOVA vs regressão linear múltipla?

Entendo que ambos os métodos parecem usar o mesmo modelo estatístico. No entanto, em que circunstâncias devo usar qual método?

Quais são as vantagens e desvantagens desses métodos quando comparados?

Por que a ANOVA é tão comumente usada em estudos experimentais e quase nunca encontro um estudo de regressão?

florian
fonte
5
Como os dois usam o mesmo modelo, não importa qual você use.
Peter Flom - Restabelece Monica
3
Chamo isso de regressão quando comparo inclinações, ou seja, variáveis ​​preditivas contínuas e ANOVA quando comparo médias, ou seja, variáveis ​​preditivas categóricas. A razão pela qual você encontra mais a ANOVA em estudos experimentais é porque eles estão na maioria comparando meios ou níveis de tratamentos, por exemplo, comparando diferentes fertilizantes no crescimento das plantas. Mas como o @PeterFlom já disse, ambos usam o mesmo modelo e não importa qual deles você usa - a única coisa que parece diferente é a saída que eles fornecem - e, dependendo da sua pergunta, você deseja a saída "regressão" ou o Saída "ANOVA".
Stefan
2
Hmm, mas você também pode incluir preditores categóricos em uma regressão via codificação fictícia?
florian
Sim, claro!
Stefan
4
Sua pergunta é muito válida e foi abordada várias vezes de diferentes perspectivas no currículo. A natureza duplicada desses testes é intrigante. É fácil dizer ANOVA = regressão linear, e acho que todos os comentários feitos até agora são úteis e pontuais, mas a realidade é um pouco mais sutil e difícil de entender, especialmente se você incluir ANCOVA sob a égide da análise de variação. Verifique outras entradas, como esta . Marquei a sua pergunta com +1, embora seja estritamente uma duplicata. Você pode dar um ex?
Antoni Parellada 16/01

Respostas:

22

Seria interessante perceber que a divergência está no tipo de variáveis , e mais notavelmente nos tipos de variáveis ​​explicativas . Na ANOVA típica, temos uma variável categórica com diferentes grupos e tentamos determinar se a medida de uma variável contínua difere entre os grupos. Por outro lado, o OLS tende a ser percebido principalmente como uma tentativa de avaliar a relação entre uma regressão contínua ou variável de resposta e um ou vários regressores ou variáveis ​​explicativas . Nesse sentido, a regressão pode ser vista como uma técnica diferente, prestando-se a prever valores com base em uma linha de regressão.

No entanto , essa diferença não representa a extensão da ANOVA para o restante da análise do alfabeto de variância (ANCOVA, MANOVA, MANCOVA); ou a inclusão de variáveis ​​codificadas por modelo na regressão OLS. Não estou claro sobre os marcos históricos específicos, mas é como se as duas técnicas tivessem crescido adaptações paralelas para lidar com modelos cada vez mais complexos.

Por exemplo, podemos ver que as diferenças entre ANCOVA versus OLS com variáveis ​​fictícias (ou categóricas) (em ambos os casos com interações) são no máximo cosméticas. Por favor, desculpe minha partida dos limites do título da sua pergunta, em relação à regressão linear múltipla.

Nos dois casos, o modelo é essencialmente idêntico ao ponto em que R a lmfunção é usada para executar ANCOVA . No entanto, pode ser apresentado como diferente no que diz respeito à inclusão de uma interceptação correspondente ao primeiro nível (ou grupo) da variável fator (ou categórica) no modelo de regressão.

Em um modelo equilibrado ( grupos tamanho igual , ) e apenas uma covariável (para simplificar a apresentação da matriz), a matriz do modelo no ANCOVA pode ser encontrada como uma variação de:n 1 , 2in1,2,i

X=[1n100xn10001n200xn20001n300xn3]

para grupos da variável fator, expressa em matrizes de blocos.3

Isso corresponde ao modelo linear:

α i β

y=αi+β1xn1+β2xn2+β3xn3+ϵi
com equivalente a equivalente aos diferentes grupos em uma ANOVA enquanto os diferentes 's são as inclinações da covariável para cada um dos grupos.αiβ

A apresentação do mesmo modelo no campo de regressão, e especificamente em R, considera uma interceptação geral, correspondente a um dos grupos, e a matriz do modelo pode ser apresentada como:

X=[0 00 00 00 00 0J3n,11n20 0x0 0xn20 00 01n30 00 0xn3]

da equação OLS:

y=β0 0+μEu+β1xn1+β2xn2+β3xn3+ϵEu
.

Nesse modelo, a interceptação geral é modificada em cada nível de grupo por , e os grupos também têm inclinações diferentes.μ iβ0 0μEu

Como você pode ver nas matrizes do modelo, a apresentação esconde a identidade real entre regressão e análise de variância.

Eu gosto de tipo de verificar isso com algumas linhas de código e os meus dados favoritos definidos mtcarsem R . Estou usando o lmANCOVA de acordo com o artigo de Ben Bolker disponível aqui .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Quanto à parte da pergunta sobre qual método usar (regressão com R!), Você pode achar divertido esse comentário on-line que me deparei ao escrever este post.

Antoni Parellada
fonte
1
Obrigado por este comentário extremamente útil ... Citando o comentário que você vinculou: "Use a regressão quando não tiver certeza se as variáveis ​​categóricas independentes têm algum efeito. Use ANOVA quando desejar ver se categorias específicas têm efeitos diferentes. . " Então, como muitos estudos experimentais usam a ANOVA? Do meu entendimento, a regressão seria a escolha certa. Os pesquisadores estão convencidos de que os efeitos existem e apenas buscam maneiras de "prová-los" estatisticamente?
florian
Você poderia fornecer um exemplo prático em que se deve usar aov sobre a regressão e explicar por quê? Obrigado também pelo seu tempo. Também sou psicólogo por treinamento e não vejo as vantagens do Anova, exceto que provavelmente é publicado mais facilmente.
florian
Alguma sorte? Eu ficaria muito interessado em uma heurística mais concreta para favorecer qualquer tipo de procedimento; portanto, compartilhe se encontrar uma resposta.
Antoni Parellada 20/01
Infelizmente, nenhuma nova descoberta em minha jornada nas estatísticas até agora ... o manterá informado, mais informações serão apreciadas.
florian
Estou tendo dificuldades para entender a matriz do modelo OLS e a equação correspondente aqui. Não entendo de onde vem a coluna zero (quinta coluna da matriz). Além disso, acho que a equação deve corresponder às colunas (ie mu_i deve ser apenas para dois grupos e a variável x deve ser incluída sem interação com um manequim de grupo). Esclarecimentos adicionais são muito apreciados!
Nick
4

A regressão ANOVA e OLS são matematicamente idênticas nos casos em que seus preditores são categóricos (em termos das inferências que você está tirando da estatística de teste). Em outras palavras, a ANOVA é um caso especial de regressão. Não há nada que uma ANOVA possa lhe dizer que a regressão não pode derivar a si mesma. O oposto, no entanto, não é verdade. ANOVA não pode ser usado para análise com variáveis ​​contínuas. Como tal, a ANOVA poderia ser classificada como a técnica mais limitada. A regressão, no entanto, nem sempre é útil para o analista menos sofisticado. Por exemplo, a maioria dos scripts ANOVA gera automaticamente termos de interação, onde, como na regressão, você frequentemente deve calcular manualmente esses termos usando o software. O uso generalizado da ANOVA é parcialmente uma relíquia da análise estatística antes do uso de um software estatístico mais poderoso, e, na minha opinião, uma técnica mais fácil de ensinar a estudantes inexperientes, cujo objetivo é um entendimento relativamente superficial que lhes permita analisar dados com um pacote estatístico básico. Experimente em algum momento ... Examine a estatística t que uma regressão básica cospe, calcule o quadrado e compare-a com a razão F da ANOVA nos mesmos dados. Idêntico!

Michael Melville
fonte
Isso não é verdade.
Michael R. Chernick 01/08/19
4
@MichaelChernick Você poderia elaborar quais das muitas afirmações feitas nesta resposta você acha que são falsas? Embora exija algumas posições extremas, é difícil encontrar falsas.
whuber
Opontei à afirmação de que a regressão ANOVA e OLS são matematicamente idênticas. Reconheço que a ANOVA pode ser vista como regressão em uma forma do modelo linear geral que pode ser formulado como regressão.
Michael R. Chernick
No caso do OLS, como eles não são idênticos, exceto a saída? O modelo subjacente é o mesmo, os resíduos são os mesmos, os valores de p que eles produzem são os mesmos. É a saída que difere.
dbwilson 25/03
2

O principal benefício da ANOVA após a regressão, na minha opinião, está no resultado. Se você está interessado na significância estatística da variável categórica (fator) como um bloco, a ANOVA fornece esse teste para você. Com a regressão, a variável categórica é representada por 2 ou mais variáveis ​​dummy, dependendo do número de categorias e, portanto, você tem 2 ou mais testes estatísticos, cada um comparando a média da categoria em particular com a média da categoria nula (ou o média geral, dependendo do método de codificação fictícia). Nenhum destes pode ser de interesse. Portanto, você deve executar uma análise pós-estimativa (essencialmente ANOVA) para obter o teste geral do fator em que está interessado.

dbwilson
fonte
Na verdade, isso não é verdade. Se você executar um teste de razão de verossimilhança, estará testando todo o fator categórico como um bloco em um modelo de regressão.
Dan Chaltiel 20/03
Seu comentário não contradiz o que eu disse. O teste da razão de verossimilhança que você mencionou seria uma análise pós-estimativa do fator, comparando o modelo com o fator e o modelo sem.
dbwilson 25/03
Se você realizar uma ANOVA, receberá um pvalor para "a variável categórica (fator) como um bloco", assim como a regressão com LRT. A regressão pode fornecer várias versões beta, mas não realizaria mais testes que a ANOVA; portanto, sua declaração "portanto, você tem 2 ou mais testes estatísticos" me parece errada. Por que o LRT seria mais "pós-estimativa" do que a ANOVA?
Dan Chaltiel 25/03
1

A principal vantagem da regressão linear é que ela é robusta à violação da homogeneidade de variância quando o tamanho da amostra nos grupos é desigual. Outra é que facilita a inclusão de várias covariáveis ​​(embora isso também possa ser facilmente realizado através da ANCOVA quando você estiver interessado em incluir apenas uma covariável). A regressão se generalizou durante os anos setenta no advento dos avanços no poder da computação. Você também pode considerar a regressão mais conveniente se estiver particularmente interessado em examinar diferenças entre níveis específicos de uma variável categórica quando houver mais de dois níveis presentes (desde que você configure a variável dummy na regressão para que um desses dois níveis representa o grupo de referência).

David B
fonte
1
Como apontado na outra resposta, uma ANOVA é uma regressão múltipla.
gung - Restabelece Monica
Obrigado. Quais são as vantagens do Anova? Por que você usaria um Anova / Ancova sobre um modelo de regressão?
florian
Eu tenho uma pergunta aqui. Por que você indicou 'apenas uma covariável' ao explicar a utilidade da ANCOVA? É porque você pode incluir apenas uma covariável na ANCOVA?
Kevin Kang