Estou correto ao entender que a ordem na qual as variáveis são especificadas em uma ANOVA multifatorial faz diferença, mas que a ordem não importa ao fazer uma regressão linear múltipla?
Então, assumindo um resultado como perda de sangue medida y
e duas variáveis categóricas
- método de adenoidectomia
a
, - método de amigdalectomia
b
.
O modelo y~a+b
é diferente do modelo y~b+a
(ou seja, minha implementação em R parece indicar).
Estou correto ao entender que o termo aqui é que ANOVA é um modelo hierárquico , pois primeiro atribui a maior variação possível ao primeiro fator antes de tentar atribuir a variação residual ao segundo fator?
No exemplo acima, a hierarquia faz sentido porque eu sempre faço a adenoidectomia antes de fazer a amigdalectomia, mas o que aconteceria se alguém tivesse duas variáveis sem ordem inerente?
Respostas:
Evidentemente, essa pergunta veio de um estudo com um design bidirecional desequilibrado, analisado em R com a
aov()
função; Esta página fornece um exemplo mais recente e detalhado desse problema.A resposta geral a esta pergunta, e a tantas, é: "Depende". Aqui depende se o design é equilibrado e, se não, qual o sabor da ANOVA escolhido.
Primeiro, depende se o design é equilibrado. No melhor de todos os mundos possíveis, com números iguais de casos em todas as células de um planejamento fatorial, não haveria diferença devido à ordem de inserção dos fatores no modelo, independentemente de como a ANOVA é realizada. * Os casos em questão , evidentemente, de uma coorte clínica retrospectiva, parecem pertencer a um mundo real onde esse equilíbrio não foi encontrado. Portanto, a ordem pode importar.
Segundo, depende de como a ANOVA é realizada, o que é uma questão um tanto controversa. Os tipos de ANOVA para projetos desequilibrados diferem na ordem de avaliação dos principais efeitos e interações. A avaliação das interações é fundamental para a ANOVA bidirecional e de ordem superior, para que haja disputas sobre a melhor maneira de prosseguir. Consulte esta página Cross Validated para uma explicação e discussão. Consulte os detalhes e o aviso para a função
Anova()
(com letra maiúscula "A") no manual docar
pacote para uma visão diferente.A ordem dos fatores é importante em projetos desequilibrados sob o padrão
aov()
em R, que usa os chamados testes tipo I. Essas são atribuições de variação sequenciais a fatores na ordem de entrada no modelo, conforme a presente questão. A ordem não importa com os testes tipo II ou tipo III fornecidos pelaAnova()
função nocar
pacote em R. Essas alternativas, no entanto, têm suas próprias desvantagens em potencial observadas nos links acima.Por fim, considere a relação com a regressão linear múltipla como
lm()
em R, que é essencialmente o mesmo tipo de modelo se você incluir termos de interação. A ordem de entrada das variáveis emlm()
não importa em termos de coeficientes de regressão e valores de p relatados porsummary(lm())
, nos quais um fator categórico no nível k é codificado como variáveis fictícias binárias (k-1) e um coeficiente de regressão é relatado para cada dummy .No entanto, é possível agrupar a
lm()
saída comanova()
("minúsculo", dostats
pacote R ) ouAnova()
resumir a influência de cada fator em todos os seus níveis, como se espera na ANOVA clássica. Então, a ordem dos fatores será importante tantoanova()
quanto paraaov()
e não será importanteAnova()
. Da mesma forma, as disputas sobre qual tipo de ANOVA usar retornariam. Portanto, não é seguro assumir a independência da ordem da entrada de fatores com todos os usos posteriores doslm()
modelos.* Ter um número igual de observações em todas as células é suficiente, mas, pelo que entendi, não é necessário para que a ordem dos fatores seja irrelevante. Tipos de equilíbrio menos exigentes podem permitir a independência da ordem.
fonte
O termo modelo hierárquico refere-se à estrutura entre os fatores. Por exemplo, um estudo multicêntrico é hierárquico: você tem os pacientes aninhados nos hospitais que os tratam. Cada hospital trata pacientes com placebo e verum, mas o recebimento de cada um deles no hospital A ou B é ligeiramente diferente devido a algum efeito comum do hospital que governa todos os seus pacientes (pode até ser um efeito de interação com o agente experimental). Então, isso é chamado efeito hierárquico.
Agora, seus métodos de ectomia podem ser hierárquicos: é plausível que um determinado método de tonsilectomia seja ligeiramente diferente (por si só, ainda não está em efeito, porque é isso que você vai estimar e testar) dependendo do método de adenoidectomia usado anteriormente no mesmo paciente? Se sim, você deve especificá-lo em seu modelo.
Sua observação de que y ~ a + b pode ser diferente de y ~ b + a indica que há algo errado. Efeitos aditivos comutam, portanto, não deve haver diferença (além de pequenas diferenças numéricas). Não é plausível nem desejado que o efeito dos métodos cirúrgicos dependa da ordem em que o estatístico especifica posteriormente os efeitos. Então você provavelmente escolheu a abordagem errada para alimentar
R
os dados.fonte
aov
comando no R usa SS tipo I por padrão. Quando ofereci a recompensa, esperava obter uma resposta para explicar os problemas por trás do design desequilibrado da anova, as diferenças entre SS tipo I / II / III e alguns comentários sobre se a regressão linear tem ou não os mesmos problemas.aov
vez delm
, e seria útil ter uma resposta a esta pergunta do tipo que @amoeba indicado no comentário de 12 de Maio, 14:31 .