A ordem das variáveis ​​na ANOVA é importante, não é?

20

Estou correto ao entender que a ordem na qual as variáveis ​​são especificadas em uma ANOVA multifatorial faz diferença, mas que a ordem não importa ao fazer uma regressão linear múltipla?

Então, assumindo um resultado como perda de sangue medida y e duas variáveis ​​categóricas

  1. método de adenoidectomia a ,
  2. método de amigdalectomia b .

O modelo y~a+bé diferente do modelo y~b+a(ou seja, minha implementação em R parece indicar).

Estou correto ao entender que o termo aqui é que ANOVA é um modelo hierárquico , pois primeiro atribui a maior variação possível ao primeiro fator antes de tentar atribuir a variação residual ao segundo fator?

No exemplo acima, a hierarquia faz sentido porque eu sempre faço a adenoidectomia antes de fazer a amigdalectomia, mas o que aconteceria se alguém tivesse duas variáveis ​​sem ordem inerente?

Farrel
fonte
12
A ordem é importante em ANOVAs com projetos desequilibrados, ou seja, quando há tamanhos de célula desiguais. Este tópico é frequentemente tratado sob o título de "tipos de somas de quadrados". Veja epm.sagepub.com/content/38/3/621.full.pdf+html resposta de e chl a stats.stackexchange.com/questions/11209/...
caracal
1
Veja também a resposta de gung em stats.stackexchange.com/questions/20452 .
Ameba diz Reinstate Monica
Acabei de estender uma discussão mais antiga minha, esperando que ela lance outra luz sobre o assunto. Certamente ainda precisa de trabalho, e possivelmente alguém tem os nervos para ajudar a editá-lo. Aqui está o que tenho até agora: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Possivelmente há algo interessante com o potencial a ser extraído para uma resposta explícita a essa pergunta aqui.
Gottfried Helms

Respostas:

17

Evidentemente, essa pergunta veio de um estudo com um design bidirecional desequilibrado, analisado em R com a aov()função; Esta página fornece um exemplo mais recente e detalhado desse problema.

A resposta geral a esta pergunta, e a tantas, é: "Depende". Aqui depende se o design é equilibrado e, se não, qual o sabor da ANOVA escolhido.

Primeiro, depende se o design é equilibrado. No melhor de todos os mundos possíveis, com números iguais de casos em todas as células de um planejamento fatorial, não haveria diferença devido à ordem de inserção dos fatores no modelo, independentemente de como a ANOVA é realizada. * Os casos em questão , evidentemente, de uma coorte clínica retrospectiva, parecem pertencer a um mundo real onde esse equilíbrio não foi encontrado. Portanto, a ordem pode importar.

Segundo, depende de como a ANOVA é realizada, o que é uma questão um tanto controversa. Os tipos de ANOVA para projetos desequilibrados diferem na ordem de avaliação dos principais efeitos e interações. A avaliação das interações é fundamental para a ANOVA bidirecional e de ordem superior, para que haja disputas sobre a melhor maneira de prosseguir. Consulte esta página Cross Validated para uma explicação e discussão. Consulte os detalhes e o aviso para a função Anova()(com letra maiúscula "A") no manual do carpacote para uma visão diferente.

A ordem dos fatores é importante em projetos desequilibrados sob o padrão aov()em R, que usa os chamados testes tipo I. Essas são atribuições de variação sequenciais a fatores na ordem de entrada no modelo, conforme a presente questão. A ordem não importa com os testes tipo II ou tipo III fornecidos pela Anova()função no carpacote em R. Essas alternativas, no entanto, têm suas próprias desvantagens em potencial observadas nos links acima.

Por fim, considere a relação com a regressão linear múltipla como lm()em R, que é essencialmente o mesmo tipo de modelo se você incluir termos de interação. A ordem de entrada das variáveis ​​em lm()não importa em termos de coeficientes de regressão e valores de p relatados por summary(lm()), nos quais um fator categórico no nível k é codificado como variáveis ​​fictícias binárias (k-1) e um coeficiente de regressão é relatado para cada dummy .

No entanto, é possível agrupar a lm()saída com anova()("minúsculo", do statspacote R ) ou Anova()resumir a influência de cada fator em todos os seus níveis, como se espera na ANOVA clássica. Então, a ordem dos fatores será importante tanto anova()quanto para aov()e não será importante Anova(). Da mesma forma, as disputas sobre qual tipo de ANOVA usar retornariam. Portanto, não é seguro assumir a independência da ordem da entrada de fatores com todos os usos posteriores dos lm()modelos.


* Ter um número igual de observações em todas as células é suficiente, mas, pelo que entendi, não é necessário para que a ordem dos fatores seja irrelevante. Tipos de equilíbrio menos exigentes podem permitir a independência da ordem.

EdM
fonte
De fato, sim, esses dados observacionais estavam desequilibrados, muito desequilibrados.
Farrel
Espero que este comentário ainda receba uma resposta aqui: você diz que, sob um desenho de estudo equilibrado, a estimativa da SS nunca será dependente da ordem, independentemente do tipo de teste de anova (tipo I, II, III) escolhido. Não sei se entendi isso. usando a função 'anova' em R (que usa testes do tipo I) em um modelo linear com base em dados equilibrados, certamente a ordem do recurso é importante, não?
PejoPhylo
1
@PejoPhylo quando os dados estiverem equilibrados, você poderá obter o que é chamado de design ortogonal. Com um desenho ortogonal, há uma maneira única de dividir as somas de quadrados entre os tratamentos e suas interações; portanto, a ordem de entrada dos tratamentos não será importante no que diz respeito às estimativas de efeitos e seus valores de p. Esta página fornece uma explicação matemática. Isso não é imediatamente óbvio; a pergunta que acabei de vincular foi feita por um membro deste site com uma das maiores reputações. Dados desequilibrados podem destruir a ortogonalidade.
EdM
Muito obrigado pela sua resposta @EdM
PejoPhylo
0

O termo modelo hierárquico refere-se à estrutura entre os fatores. Por exemplo, um estudo multicêntrico é hierárquico: você tem os pacientes aninhados nos hospitais que os tratam. Cada hospital trata pacientes com placebo e verum, mas o recebimento de cada um deles no hospital A ou B é ligeiramente diferente devido a algum efeito comum do hospital que governa todos os seus pacientes (pode até ser um efeito de interação com o agente experimental). Então, isso é chamado efeito hierárquico.

Agora, seus métodos de ectomia podem ser hierárquicos: é plausível que um determinado método de tonsilectomia seja ligeiramente diferente (por si só, ainda não está em efeito, porque é isso que você vai estimar e testar) dependendo do método de adenoidectomia usado anteriormente no mesmo paciente? Se sim, você deve especificá-lo em seu modelo.

Sua observação de que y ~ a + b pode ser diferente de y ~ b + a indica que há algo errado. Efeitos aditivos comutam, portanto, não deve haver diferença (além de pequenas diferenças numéricas). Não é plausível nem desejado que o efeito dos métodos cirúrgicos dependa da ordem em que o estatístico especifica posteriormente os efeitos. Então você provavelmente escolheu a abordagem errada para alimentar Ros dados.

Horst Grünbusch
fonte
1
Não sei se segui o último parágrafo. Na ANOVA fatorial desequilibrada, os valores de p para cada fator calculado por meio da soma dos quadrados do Tipo I (sequencial) certamente dependerão da ordem dos fatores. Eu acredito que este é o ponto principal da questão.
Ameba diz Reinstate Monica
Não tenho certeza se o @Farrel recebeu SS tipo I. Lembro que uma vez observei que o SAS produzia SS tipo III diferente devido a uma classificação díspar no conjunto de dados e na declaração do modelo. Talvez isso possa acontecer com o R também?
Horst Grünbusch
2
Não sei de fato e ele pode não se lembrar, dado que o Q foi perguntado cinco anos atrás. Mas acho que essa é, de longe, a interpretação mais parcimoniosa de suas palavras "O modelo y ~ a + b é diferente do modelo y ~ b + a (ou seja, minha implementação em R parece indicar)", em particular considerando o fato esse aovcomando no R usa SS tipo I por padrão. Quando ofereci a recompensa, esperava obter uma resposta para explicar os problemas por trás do design desequilibrado da anova, as diferenças entre SS tipo I / II / III e alguns comentários sobre se a regressão linear tem ou não os mesmos problemas.
Ameba diz Reinstate Monica
1
Não. A matriz de design é singular na anova, mesmo que seja equilibrada, quando não há diferença entre SS I / II / III. As SS I / II / III são diferentes apenas no caso desequilibrado, porque os fatores se tornam não ortogonais (ao contrário do caso equilibrado). No meu entendimento, isso corresponde a uma regressão linear com preditores correlacionados, o que é uma situação muito comum. Minha resposta é que o mesmo problema também ocorre na regressão, mas é padrão calcular um valor-p de um preditor após contabilizar os efeitos de todos os outros preditores; isso corresponde ao tipo III SS na anova.
Ameba diz Reinstate Monica
1
Essas perguntas sobre ordem variável na ANOVA continuam chegando, como esta migrada do Stack Overflow ontem. Eu acho que é seguro assumir que esta pergunta 5 anos de idade foi baseada semelhante em aovvez de lm, e seria útil ter uma resposta a esta pergunta do tipo que @amoeba indicado no comentário de 12 de Maio, 14:31 .
EdM