A inferência baseada no modelo de regressão completo (global) é apropriada?

7

A inferência é baseada em um modelo completo e, em caso afirmativo, em que circunstâncias?

Suponha que você esteja interessado no relacionamento potencial entre uma variável de resposta e várias variáveis ​​preditoras de candidatos e use alguma forma de regressão (por exemplo, modelo linear generalizado) para responder a isso. Uma abordagem para inferir quais preditores são "importantes" ou têm um relacionamento aparentemente genuíno com a resposta seria a comparação de modelos com base no critério da teoria da informação (digamos, AIC). Embora as variáveis ​​que não são retidas no modelo final possam ter algum relacionamento com a resposta, elas essencialmente não fornecem informações substanciais adicionais, dados outros preditores retidos no modelo.

Existe um caso em que seria mais apropriado simplesmente ajustar um modelo completo (global) (com todos os preditores candidatos), parar por aí e basear inferências em preditores individuais apenas nas estatísticas t (ou outras estatísticas) e valores p neste modelo completo, sem mais seleção de modelo?

Encontrei sugestões (por exemplo, Whittingham et al. "Por que ainda usamos modelagem gradual em ecologia e comportamento?" (2006) de que isso pode ser uma coisa sensata a ser feita, embora com possíveis desvantagens. Os autores dizem que os parâmetros estimados são imparciais, mas outras fontes dizem que essas estimativas e valores de p não são confiáveis, pois outras variáveis ​​("não importantes") do modelo podem afetá-las.

Se o objetivo é entender as possíveis relações biológicas, qual método seria mais apropriado?

Tilen
fonte
Forneça as "outras fontes" mencionadas para ajudar a melhorar a resposta abaixo.
mzunhammer
@mzunhammer, eu queria fazer isso em primeiro lugar, mas não consegui rastrear essas fontes novamente. Não me lembro em qual artigo li isso e ainda não consegui encontrá-lo. :) Continuará pesquisando.
Tilen 15/03/19

Respostas:

4

Tudo depende dos objetivos do seu estudo:

A) Estudo exploratório : seu objetivo é rastrear vários preditores potencialmente interessantes para relacionamentos. Você deseja criar um modelo testável com base nesses resultados exploratórios. Não são tiradas inferências (no sentido de testar hipóteses nulas) ou outras decisões importantes do estudo. O estudo é piloto e será seguido por outro estudo confirmatório / pré-especificado. Nesse caso, os procedimentos de seleção de modelo (usando técnicas de AIC, BIC ou de validação cruzada) são seus métodos de escolha. A referência que você citou está correta: Os valores-p obtidos para os preditores no modelo final serão excessivamente otimistas: Ao experimentar muitos modelos diferentes na seleção de modelos, você criou um problema de múltiplas comparações - "o jardim dos caminhos de bifurcação". Os testes estatísticos convencionais produzirão valores de p apenas para o modelo atual e não serão controlados por essas comparações múltiplas.

B) Estudo confirmatório / "pré-especificado" : nesse caso, você deve testar idealmente um único modelo - o pré-especificado antes da realização do estudo. Se você tinha boas razões para acreditar, antes do início do estudo, que todos os seus preditores estão tendo efeito, o modelo completo é uma escolha natural. Se você incluiu alguns preditores por mera suspeita, provavelmente realizou um estudo exploratório.

Variáveis ​​"não importantes", isto é, variáveis ​​que não explicam muita variação na variável de resultado, somente exercerão influência indevida em seus dados se você tiver muitos preditores em relação ao tamanho da amostra (sobreajuste) ou se houver preditores altamente correlacionado (colinear). Idealmente, você evita essas situações executando um estudo exploratório.

Uma maneira de verificar se há problemas de ajuste excessivo / instável é explorando um "modelo reduzido" que inclua apenas termos "significativos" do modelo principal. É importante ressaltar que essa análise de modelo reduzida deve ser referida como uma análise de controle post-hoc que auxilia na interpretação. As conclusões devem basear-se apenas no modelo pré-especificado.

mzunhammer
fonte
obrigado, isso é muito útil. Com relação ao seu último ponto, depois de ajustar o modelo completo e reduzido (com apenas termos "significativos"), em que você basearia sua comparação?
Tilen 15/03/19
Minha realidade (em biologia) é que geralmente existe uma espécie de combinação desses dois pontos. Muitas vezes estamos tentando inferir relacionamentos na natureza, mas ao mesmo tempo tentando prever (embora de maneira exploratória).
Tilen 15/03/19
Em relação à sua primeira pergunta: o que você quer dizer com comparação? Como mencionado acima, todas as inferências devem ser baseadas no modelo pré-especificado. Em relação à segunda pergunta: misturar exploração e inferência também é chamado de "estimativa de estimativa" e o levará a resultados não confiáveis. Tudo depende dos seus objetivos. Você precisa ter clareza para explorar, fazer inferências ou fazer previsões.
mzunhammer
Você disse que "uma maneira de verificar se há problemas de ajuste excessivo / instável é explorando um" modelo reduzido "que inclua apenas termos" significativos "do modelo principal". Então, como você explora esse modelo reduzido? Eu pensei que você queria compará-lo com o completo de alguma forma (foi por isso que escrevi comparação). Com relação ao segundo ponto, eu não tenho certeza que eu compreendo perfeitamente a diferença entre explorar relações vs. fazer inferências sobre esses relacionamentos ...
Tilen
Criar o modelo reduzido é a etapa exploratória. Você deve verificar se algum fator aparece como significativo na análise principal, mas não no modelo reduzido. Se isso acontecer, você deve verificar o porquê. Em relação ao estudo exploratório x inferencial: Veja as referências citadas acima.
mzunhammer