A inferência é baseada em um modelo completo e, em caso afirmativo, em que circunstâncias?
Suponha que você esteja interessado no relacionamento potencial entre uma variável de resposta e várias variáveis preditoras de candidatos e use alguma forma de regressão (por exemplo, modelo linear generalizado) para responder a isso. Uma abordagem para inferir quais preditores são "importantes" ou têm um relacionamento aparentemente genuíno com a resposta seria a comparação de modelos com base no critério da teoria da informação (digamos, AIC). Embora as variáveis que não são retidas no modelo final possam ter algum relacionamento com a resposta, elas essencialmente não fornecem informações substanciais adicionais, dados outros preditores retidos no modelo.
Existe um caso em que seria mais apropriado simplesmente ajustar um modelo completo (global) (com todos os preditores candidatos), parar por aí e basear inferências em preditores individuais apenas nas estatísticas t (ou outras estatísticas) e valores p neste modelo completo, sem mais seleção de modelo?
Encontrei sugestões (por exemplo, Whittingham et al. "Por que ainda usamos modelagem gradual em ecologia e comportamento?" (2006) de que isso pode ser uma coisa sensata a ser feita, embora com possíveis desvantagens. Os autores dizem que os parâmetros estimados são imparciais, mas outras fontes dizem que essas estimativas e valores de p não são confiáveis, pois outras variáveis ("não importantes") do modelo podem afetá-las.
Se o objetivo é entender as possíveis relações biológicas, qual método seria mais apropriado?
Respostas:
Tudo depende dos objetivos do seu estudo:
A) Estudo exploratório : seu objetivo é rastrear vários preditores potencialmente interessantes para relacionamentos. Você deseja criar um modelo testável com base nesses resultados exploratórios. Não são tiradas inferências (no sentido de testar hipóteses nulas) ou outras decisões importantes do estudo. O estudo é piloto e será seguido por outro estudo confirmatório / pré-especificado. Nesse caso, os procedimentos de seleção de modelo (usando técnicas de AIC, BIC ou de validação cruzada) são seus métodos de escolha. A referência que você citou está correta: Os valores-p obtidos para os preditores no modelo final serão excessivamente otimistas: Ao experimentar muitos modelos diferentes na seleção de modelos, você criou um problema de múltiplas comparações - "o jardim dos caminhos de bifurcação". Os testes estatísticos convencionais produzirão valores de p apenas para o modelo atual e não serão controlados por essas comparações múltiplas.
B) Estudo confirmatório / "pré-especificado" : nesse caso, você deve testar idealmente um único modelo - o pré-especificado antes da realização do estudo. Se você tinha boas razões para acreditar, antes do início do estudo, que todos os seus preditores estão tendo efeito, o modelo completo é uma escolha natural. Se você incluiu alguns preditores por mera suspeita, provavelmente realizou um estudo exploratório.
Variáveis "não importantes", isto é, variáveis que não explicam muita variação na variável de resultado, somente exercerão influência indevida em seus dados se você tiver muitos preditores em relação ao tamanho da amostra (sobreajuste) ou se houver preditores altamente correlacionado (colinear). Idealmente, você evita essas situações executando um estudo exploratório.
Uma maneira de verificar se há problemas de ajuste excessivo / instável é explorando um "modelo reduzido" que inclua apenas termos "significativos" do modelo principal. É importante ressaltar que essa análise de modelo reduzida deve ser referida como uma análise de controle post-hoc que auxilia na interpretação. As conclusões devem basear-se apenas no modelo pré-especificado.
fonte