Eu sempre tive a impressão de que a regressão é apenas uma forma mais geral de ANOVA e que os resultados seriam idênticos. Recentemente, no entanto, executei uma regressão e uma ANOVA nos mesmos dados e os resultados diferem significativamente. Ou seja, no modelo de regressão, os efeitos principais e a interação são significativos, enquanto na ANOVA um efeito principal não é significativo. Espero que isso tenha algo a ver com a interação, mas não está claro para mim o que há de diferente nessas duas maneiras de modelar a mesma pergunta. Se for importante, um preditor é categórico e o outro é contínuo, conforme indicado na simulação abaixo.
Aqui está um exemplo de como meus dados são e de quais análises estou executando, mas sem que os mesmos valores-p ou efeitos sejam significativos nos resultados (meus resultados reais estão descritos acima):
group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)
summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
fonte
group
é um vetor numérico, isso é proposital? Normalmente, os fatores de agrupamento devem ter classefactor
, de modo que a transformação em contraste possa ser tratada automaticamente por funções comolm()
. Isso ficará aparente quando você tiver mais de dois grupos ou use uma codificação diferente de 0/1 para suagroup
variável.Respostas:
A
summary
função chama métodos diferentes, dependendo da classe do objeto. A diferença não está noaov
vslm
, mas nas informações apresentadas sobre os modelos. Por exemplo, se você usouanova(mod1)
eanova(mod2)
, em vez disso, deve obter os mesmos resultados.Como o @Glen diz, a chave é se os testes relatados são baseados nas somas de quadrados Tipo 1 ou Tipo 3. Elas diferem quando a correlação entre suas variáveis explicativas não é exatamente 0. Quando elas estão correlacionadas, algumas SS são exclusivas de um preditor e outras no outro, mas algumas SS podem ser atribuídas a uma ou a ambas. ( Você pode visualizar isso imaginando o símbolo MasterCard- existe uma pequena região de sobreposição no centro.) Não há resposta única nessa situação e, infelizmente, essa é a norma para dados não experimentais. Uma abordagem é o analista usar seu julgamento e atribuir a SS sobreposta a uma das variáveis. Essa variável entra no modelo primeiro. A outra variável entra no modelo em segundo e obtém o SS que se parece com um cookie com uma mordida retirada dele. Seu efeito pode ser testado pelo que às vezes é chamado deR2 mudança ou mudança de F. Essa abordagem usa SS tipo 1. Como alternativa, você pode fazer isso duas vezes com cada um entrando primeiro e relatar o teste de mudança F para ambos os preditores. Dessa maneira, nenhuma variável obtém o SS devido à sobreposição. Essa abordagem usa SS tipo 3. (Devo também dizer-lhe que a última abordagem é menosprezada.)
Seguindo a sugestão de @BrettMagill no comentário abaixo, posso tentar deixar isso um pouco mais claro. (Observe que, no meu exemplo, estou usando apenas 2 preditores e nenhuma interação, mas essa ideia pode ser ampliada para incluir o que você quiser.)
Tipo 1: SS (A) e SS (B | A)
Tipo 3: SS (A | B) e SS (B | A)
fonte
Os resultados da saída Aov estão fornecendo probabilidades baseadas na soma dos quadrados do Tipo 1. É por isso que o resultado da interação é o mesmo e os principais efeitos diferem.
Se você usar probabilidades baseadas na soma dos quadrados do Tipo 3, elas corresponderão aos resultados da regressão linear.
fonte
Anova(..., type=3)
você não fornecerá o SS tipo III correto, a menos que você também mude dos contrastes de tratamento (padrão em R) para efetuar a codificação de fatores não ordenados (options(contrasts=c("contr.sum", "contr.poly"))
) ou alguns outros códigos de contraste de soma a zero (por exemplo, Helmert). Isso ficará aparente quando você tiver tamanhos de célula desequilibrados e mais de dois grupos e também for mencionado na página de ajuda deAnova()
.A principal diferença entre regressão linear e ANOVA é que, na ANOVA, as variáveis preditoras são discretas (ou seja, possuem níveis diferentes). Enquanto na regressão linear, as variáveis preditoras são contínuas.
fonte