Regressão vs. discrepância ANOVA (aov vs lm em R)

21

Eu sempre tive a impressão de que a regressão é apenas uma forma mais geral de ANOVA e que os resultados seriam idênticos. Recentemente, no entanto, executei uma regressão e uma ANOVA nos mesmos dados e os resultados diferem significativamente. Ou seja, no modelo de regressão, os efeitos principais e a interação são significativos, enquanto na ANOVA um efeito principal não é significativo. Espero que isso tenha algo a ver com a interação, mas não está claro para mim o que há de diferente nessas duas maneiras de modelar a mesma pergunta. Se for importante, um preditor é categórico e o outro é contínuo, conforme indicado na simulação abaixo.

Aqui está um exemplo de como meus dados são e de quais análises estou executando, mas sem que os mesmos valores-p ou efeitos sejam significativos nos resultados (meus resultados reais estão descritos acima):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
Rebecca
fonte
O resumo (lm ()) fornece os coeficientes para os contrastes especificados, que são contrastes de tratamento na ausência de especificação aqui. Enquanto o resumo (aov ()) está fornecendo a tabela anova. Se quiser que o anova para o modelo lm você precisa anova (lm ())
Matt Albrecht
groupé um vetor numérico, isso é proposital? Normalmente, os fatores de agrupamento devem ter classe factor, de modo que a transformação em contraste possa ser tratada automaticamente por funções como lm(). Isso ficará aparente quando você tiver mais de dois grupos ou use uma codificação diferente de 0/1 para sua groupvariável.
caracal
Veja também stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Respostas:

17

A summaryfunção chama métodos diferentes, dependendo da classe do objeto. A diferença não está no aovvs lm, mas nas informações apresentadas sobre os modelos. Por exemplo, se você usou anova(mod1)e anova(mod2), em vez disso, deve obter os mesmos resultados.

Como o @Glen diz, a chave é se os testes relatados são baseados nas somas de quadrados Tipo 1 ou Tipo 3. Elas diferem quando a correlação entre suas variáveis ​​explicativas não é exatamente 0. Quando elas estão correlacionadas, algumas SS são exclusivas de um preditor e outras no outro, mas algumas SS podem ser atribuídas a uma ou a ambas. ( Você pode visualizar isso imaginando o símbolo MasterCard- existe uma pequena região de sobreposição no centro.) Não há resposta única nessa situação e, infelizmente, essa é a norma para dados não experimentais. Uma abordagem é o analista usar seu julgamento e atribuir a SS sobreposta a uma das variáveis. Essa variável entra no modelo primeiro. A outra variável entra no modelo em segundo e obtém o SS que se parece com um cookie com uma mordida retirada dele. Seu efeito pode ser testado pelo que às vezes é chamado de R2mudança ou mudança de F. Essa abordagem usa SS tipo 1. Como alternativa, você pode fazer isso duas vezes com cada um entrando primeiro e relatar o teste de mudança F para ambos os preditores. Dessa maneira, nenhuma variável obtém o SS devido à sobreposição. Essa abordagem usa SS tipo 3. (Devo também dizer-lhe que a última abordagem é menosprezada.)

Seguindo a sugestão de @BrettMagill no comentário abaixo, posso tentar deixar isso um pouco mais claro. (Observe que, no meu exemplo, estou usando apenas 2 preditores e nenhuma interação, mas essa ideia pode ser ampliada para incluir o que você quiser.)

Tipo 1: SS (A) e SS (B | A)

Tipo 3: SS (A | B) e SS (B | A)

- Reinstate Monica
fonte
1
Esta é uma boa descrição do problema. Você pode esclarecer um pouco o texto com isso: Tipo I: SS_A = SS (A) SS_B = SS (B | A) e SS_AB = SS (AB | B, A) Tipo III: SS_A = SS (A | B, AB ) e SS_B = SS (B | A, AB) e SS_AB = SS (AB | A, B)
Brett
1
Muito obrigado pela sua ajuda. Agora entendo o que está acontecendo em termos de como esses modelos são diferentes, mas ainda não estou claro quando seria apropriado usar um modelo de anova ou de regressão. Meu orientador está aconselhando a anova, mas sempre fui ensinado a usar regressão e não tenho certeza do que é mais apropriado usar quando os resultados são divergentes. Você tem algum exemplo ou recurso para aconselhar sobre quando seria apropriado? Obrigado novamente por sua ajuda.
Rebecca
1
Me desculpe, eu não entendo direito. Meu argumento é que os modelos não são realmente diferentes. Uma ANOVA é uma regressão com todos os preditores qualitativos. Se você possui um modelo de regressão com preditores contínuos e qualitativos e insere o preditor contínuo primeiro, os preditores qualitativos (mas sem um termo de interação) que são ANCOVA. Qualquer uma das abordagens é boa, já que 'nos bastidores' são idênticas. Geralmente codifico isso como uma regressão, mas isso é uma questão de estilo. OTOH, se seu consultor deseja que ele execute o estilo ANOVA, siga esse caminho, pois não há diferença.
gung - Restabelece Monica
2
Algumas coisas: (3 em diante) uma interação não significa que suas variáveis ​​independentes estão correlacionadas, são apenas coisas diferentes; (2 sub) se o modelo 3 for significativamente melhor que o modelo 2, sim, isso sugere que a interação é significativa (já que a interação é a única coisa que difere entre eles); (1 acima), você deseja evitar apenas pescar efeitos significativos, a menos que esteja pensando em seu estudo como um piloto que usará para planejar um estudo confirmatório subsequente (neste caso, acho que você está bem); Eu deduzi que você executou este estudo para examinar os três, portanto, vá para o modelo 3.
gung - Reinstate Monica
2
Além disso, uma interação implica que você não deve interpretar os principais efeitos, assim, apresentar apenas o modelo 1 pode ser perigosamente enganador. Se você quiser obter mais informações sobre os tipos de SS, escrevi uma resposta bastante abrangente aqui: stats.stackexchange.com/questions/20452/… Além disso, você deve aceitar uma das respostas, em algum momento, clicando na marca de seleção ao lado de um deles.
gung - Restabelece Monica
10

Os resultados da saída Aov estão fornecendo probabilidades baseadas na soma dos quadrados do Tipo 1. É por isso que o resultado da interação é o mesmo e os principais efeitos diferem.

Se você usar probabilidades baseadas na soma dos quadrados do Tipo 3, elas corresponderão aos resultados da regressão linear.

library(car)
Anova(aov(score~group*moderator),type=3)
Glen
fonte
5
Modelos lineares e ANOVA serão equivalentes quando os modelos estiverem testando as mesmas hipóteses e quando a parametrização dos fatores for equivalente. As chamadas somas "Tipo I" e "Tipo III" são quadrados, são simplesmente testes de diferentes hipóteses subjacentes (efeitos de somas sequenciais de quadrados versus somas marginais de quadrados). A ANOVA tende a esconder algumas dessas decisões implementadas em muitos pacotes - um fato que me faz acreditar que realmente configurar e testar as hipóteses de interesse por meio de parametrização de fatores e comparação de modelos no GLM é uma abordagem superior.
Brett
+1, acho que você tem um erro de digitação. lm está usando SS tipo 1 e aov está usando SS tipo 3.
gung - Restabelece Monica
2
A soma de quadrados do tipo III (marginal) é usada por padrão em lm. O AOV usaria o Tipo I (Sequencial) por padrão. Os resultados LM são invariantes à ordem, enquanto os resultados Aov dependem da ordem dos fatores.
Brett
Pensei que lm e aov usassem o tipo I por padrão, portanto, o uso do capital A Anova () para os tipos II e III.
Matt Albrecht
6
Em geral, Anova(..., type=3)você não fornecerá o SS tipo III correto, a menos que você também mude dos contrastes de tratamento (padrão em R) para efetuar a codificação de fatores não ordenados ( options(contrasts=c("contr.sum", "contr.poly"))) ou alguns outros códigos de contraste de soma a zero (por exemplo, Helmert). Isso ficará aparente quando você tiver tamanhos de célula desequilibrados e mais de dois grupos e também for mencionado na página de ajuda de Anova().
caracal
-2

A principal diferença entre regressão linear e ANOVA é que, na ANOVA, as variáveis ​​preditoras são discretas (ou seja, possuem níveis diferentes). Enquanto na regressão linear, as variáveis ​​preditoras são contínuas.

vivek
fonte
3
Isso geralmente não é verdade.
Michael R. Chernick
Eu li em algum lugar na internet. Você pode, por favor, explicar a principal diferença. Eu sou um novato.
vivek 6/0318