Esta pergunta / tópico surgiu em uma discussão com um colega e eu estava procurando algumas opiniões sobre isso:
Estou modelando alguns dados usando uma regressão logística de efeitos aleatórios, mais precisamente uma regressão logística de interceptação aleatória. Para os efeitos fixos, tenho 9 variáveis que são de interesse e são consideradas. Eu gostaria de fazer algum tipo de seleção de modelo para encontrar as variáveis que são significativas e fornecer o "melhor" modelo (apenas efeitos principais).
Minha primeira idéia foi usar o AIC para comparar modelos diferentes, mas com 9 variáveis, não fui muito empolgado para comparar 2 ^ 9 = 512 modelos diferentes (palavra-chave: dragagem de dados).
Eu discuti isso com um colega e ele me disse que se lembrava de ler sobre o uso da seleção de modelos passo a passo (ou para a frente) com GLMMs. Mas, em vez de usar um valor p (por exemplo, com base em um teste de razão de verossimilhança para GLMMs), deve-se usar o AIC como critério de entrada / saída.
Achei essa ideia muito interessante, mas não encontrei referências que discutissem mais sobre isso e meu colega não se lembrava de onde a lia. Muitos livros sugerem o uso da AIC para comparar modelos, mas não encontrei nenhuma discussão sobre o uso junto com um procedimento de seleção de modelo progressivo ou avançado.
Então, eu tenho basicamente duas perguntas:
Há algo de errado em usar o AIC em um procedimento de seleção de modelo gradual como critério de entrada / saída? Se sim, qual seria a alternativa?
Você tem algumas referências que discutem o procedimento acima que (também como referência para um relatório final?
melhor,
Emilia
Respostas:
A seleção por etapas está incorreta nos modelos multiníveis pelas mesmas razões que está incorreta na regressão "regular": os valores de p serão muito baixos, os erros padrão são muito pequenos, o parâmetro estima desviado de 0 etc. Mais importante, ele nega a você a oportunidade de pensar.
9 IVs não são tantos. Por que você escolheu esses 9? Certamente você tinha um motivo.
Uma coisa inicial a fazer é analisar muitas parcelas; quais precisos dependem um pouco se seus dados são longitudinais (nesse caso, plotagens com tempo no eixo x costumam ser úteis) ou agrupadas. Mas certamente observe as relações entre os 9 IVs e o seu DV (gráficos de caixas paralelas são uma possibilidade simples).
O ideal seria construir alguns modelos com base no senso substantivo e compará-los usando AIC, BIC ou alguma outra medida. Mas não se surpreenda se nenhum modelo específico surgir como claramente melhor. Você não diz em que campo trabalha, mas em muitos (a maioria?), A natureza é complicada. Vários modelos podem se encaixar igualmente bem e um modelo diferente pode se encaixar melhor em um conjunto de dados diferente (mesmo que ambos sejam amostras aleatórias da mesma população).
Quanto às referências - existem muitos bons livros sobre modelos mistos não lineares. Qual é o melhor para você depende de a) Qual campo você está b) Qual é a natureza dos dados c) Qual software você usa.
Respondendo ao seu comentário
Se todas as 9 variáveis forem cientificamente importantes, eu consideraria incluir todas elas. Se uma variável que todos consideram importante acaba tendo um pequeno efeito, isso é interessante.
Certamente plote todas as suas variáveis ao longo do tempo e de várias maneiras.
Para questões gerais sobre modelos longitudinais multiníveis, gosto de Hedeker e Gibbons ; para modelos longitudinais não lineares no SAS, eu gosto de Molenberghs e Verbeke . A documentação do SAS em si (para
PROC GLIMMIX
) também fornece orientação.fonte
A seleção do modelo pode ser melhor realizada usando métodos de contração, como o LASSO. Métodos passo a passo são muito liberais. Uma justificativa pode ser encontrada na página de Tibshirani. Se você estiver usando R, existe um pacote chamado
glmmLasso
que permite a seleção de modelos em modelos de efeitos mistos lineares generalizados usando o método de retração LASSO.fonte
Uma boa referência para a seleção de modelos mistos baseada em AIC em R (também é bom para manequins) seria Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
fonte