ANOVA vs regressão linear múltipla?
Entendo que ambos os métodos parecem usar o mesmo modelo estatístico. No entanto, em que circunstâncias devo usar qual método?
Quais são as vantagens e desvantagens desses métodos quando comparados?
Por que a ANOVA é tão comumente usada em estudos experimentais e quase nunca encontro um estudo de regressão?
anova
multiple-regression
least-squares
florian
fonte
fonte
Respostas:
Seria interessante perceber que a divergência está no tipo de variáveis , e mais notavelmente nos tipos de variáveis explicativas . Na ANOVA típica, temos uma variável categórica com diferentes grupos e tentamos determinar se a medida de uma variável contínua difere entre os grupos. Por outro lado, o OLS tende a ser percebido principalmente como uma tentativa de avaliar a relação entre uma regressão contínua ou variável de resposta e um ou vários regressores ou variáveis explicativas . Nesse sentido, a regressão pode ser vista como uma técnica diferente, prestando-se a prever valores com base em uma linha de regressão.
No entanto , essa diferença não representa a extensão da ANOVA para o restante da análise do alfabeto de variância (ANCOVA, MANOVA, MANCOVA); ou a inclusão de variáveis codificadas por modelo na regressão OLS. Não estou claro sobre os marcos históricos específicos, mas é como se as duas técnicas tivessem crescido adaptações paralelas para lidar com modelos cada vez mais complexos.
Por exemplo, podemos ver que as diferenças entre ANCOVA versus OLS com variáveis fictícias (ou categóricas) (em ambos os casos com interações) são no máximo cosméticas. Por favor, desculpe minha partida dos limites do título da sua pergunta, em relação à regressão linear múltipla.
Nos dois casos, o modelo é essencialmente idêntico ao ponto em que R a
lm
função é usada para executar ANCOVA . No entanto, pode ser apresentado como diferente no que diz respeito à inclusão de uma interceptação correspondente ao primeiro nível (ou grupo) da variável fator (ou categórica) no modelo de regressão.Em um modelo equilibrado ( grupos tamanho igual , ) e apenas uma covariável (para simplificar a apresentação da matriz), a matriz do modelo no ANCOVA pode ser encontrada como uma variação de:n 1 , 2Eu n1 , 2 , ⋯Eu
para grupos da variável fator, expressa em matrizes de blocos.3
Isso corresponde ao modelo linear:
α i β
A apresentação do mesmo modelo no campo de regressão, e especificamente em R, considera uma interceptação geral, correspondente a um dos grupos, e a matriz do modelo pode ser apresentada como:
da equação OLS:
Nesse modelo, a interceptação geral é modificada em cada nível de grupo por , e os grupos também têm inclinações diferentes.μ iβ0 0 μEu
Como você pode ver nas matrizes do modelo, a apresentação esconde a identidade real entre regressão e análise de variância.
Eu gosto de tipo de verificar isso com algumas linhas de código e os meus dados favoritos definidos
mtcars
em R . Estou usando olm
ANCOVA de acordo com o artigo de Ben Bolker disponível aqui .Quanto à parte da pergunta sobre qual método usar (regressão com R!), Você pode achar divertido esse comentário on-line que me deparei ao escrever este post.
fonte
A regressão ANOVA e OLS são matematicamente idênticas nos casos em que seus preditores são categóricos (em termos das inferências que você está tirando da estatística de teste). Em outras palavras, a ANOVA é um caso especial de regressão. Não há nada que uma ANOVA possa lhe dizer que a regressão não pode derivar a si mesma. O oposto, no entanto, não é verdade. ANOVA não pode ser usado para análise com variáveis contínuas. Como tal, a ANOVA poderia ser classificada como a técnica mais limitada. A regressão, no entanto, nem sempre é útil para o analista menos sofisticado. Por exemplo, a maioria dos scripts ANOVA gera automaticamente termos de interação, onde, como na regressão, você frequentemente deve calcular manualmente esses termos usando o software. O uso generalizado da ANOVA é parcialmente uma relíquia da análise estatística antes do uso de um software estatístico mais poderoso, e, na minha opinião, uma técnica mais fácil de ensinar a estudantes inexperientes, cujo objetivo é um entendimento relativamente superficial que lhes permita analisar dados com um pacote estatístico básico. Experimente em algum momento ... Examine a estatística t que uma regressão básica cospe, calcule o quadrado e compare-a com a razão F da ANOVA nos mesmos dados. Idêntico!
fonte
O principal benefício da ANOVA após a regressão, na minha opinião, está no resultado. Se você está interessado na significância estatística da variável categórica (fator) como um bloco, a ANOVA fornece esse teste para você. Com a regressão, a variável categórica é representada por 2 ou mais variáveis dummy, dependendo do número de categorias e, portanto, você tem 2 ou mais testes estatísticos, cada um comparando a média da categoria em particular com a média da categoria nula (ou o média geral, dependendo do método de codificação fictícia). Nenhum destes pode ser de interesse. Portanto, você deve executar uma análise pós-estimativa (essencialmente ANOVA) para obter o teste geral do fator em que está interessado.
fonte
A principal vantagem da regressão linear é que ela é robusta à violação da homogeneidade de variância quando o tamanho da amostra nos grupos é desigual. Outra é que facilita a inclusão de várias covariáveis (embora isso também possa ser facilmente realizado através da ANCOVA quando você estiver interessado em incluir apenas uma covariável). A regressão se generalizou durante os anos setenta no advento dos avanços no poder da computação. Você também pode considerar a regressão mais conveniente se estiver particularmente interessado em examinar diferenças entre níveis específicos de uma variável categórica quando houver mais de dois níveis presentes (desde que você configure a variável dummy na regressão para que um desses dois níveis representa o grupo de referência).
fonte