Qual é a diferença entre controlar para uma variável em um modelo de regressão e controlar para uma variável em seu desenho de estudo?

11

Imagino que controlar uma variável em seu desenho de estudo seja mais eficaz na redução de erros do que controlar post-hoc em seu modelo de regressão.

Alguém se importaria de explicar formalmente como essas duas instâncias de "controle" diferem? Quão comparativamente eficazes eles são na redução de erros e na produção de previsões mais precisas?

mrt
fonte

Respostas:

13

Ao "controlar uma variável em seu desenho de estudo", suponho que você quer dizer fazer com que uma variável seja constante em todas as unidades de estudo ou manipular uma variável para que o nível dessa variável seja definido independentemente para cada unidade de estudo. Ou seja, controlar uma variável em seu desenho de estudo significa que você está conduzindo um experimento verdadeiro . O benefício disso é que ele pode ajudar a inferir a causalidade .

Em teoria, controlar uma variável em seu modelo de regressão também pode ajudar a inferir a causalidade. No entanto, esse é apenas o caso se você controlar todas as variáveis ​​que possuem uma conexão causal direta com a resposta. Se você omitir essa variável (talvez você não soubesse incluí-la) e ela estiver correlacionada com qualquer uma das outras variáveis, suas inferências causais serão tendenciosas e incorretas. Na prática, não conhecemos todas as variáveis ​​relevantes; portanto, o controle estatístico é um empreendimento bastante arriscado, que depende de grandes suposições que você não pode verificar.

No entanto, sua pergunta é sobre "reduzir erros e gerar previsões mais precisas", sem inferir causalidade. Esta é uma questão diferente. Se você tornasse constante uma dada variável através do desenho do seu estudo, toda a variabilidade na resposta devido a essa variável seria eliminada. Por outro lado, se você simplesmente controla uma variável, está estimando seu efeito, que está sujeito a um erro de amostragem no mínimo. Em outras palavras, o controle estatístico não seria tão bom, a longo prazo, em reduzir a variação residual na sua amostra.

Mas se você estiver interessado em reduzir erros e obter previsões mais precisas, presumivelmente você se preocupa principalmente com as propriedades fora da amostra, não com a precisão dentro da amostra. E aí jaz o X da questão. Quando você controla uma variável manipulando-a de alguma forma (mantendo-a constante etc.), cria uma situação mais artificial do que a observação natural original. Ou seja, os experimentos tendem a ter menos validade / generalização externa do que os estudos observacionais.


Caso não esteja claro, um exemplo de um verdadeiro experimento que mantém algo constante pode ser avaliar um tratamento em um modelo de camundongo usando camundongos consanguíneos todos geneticamente idênticos. Por outro lado, um exemplo de controle de uma variável pode estar representando a história familiar da doença por um código fictício e incluir essa variável em um modelo de regressão múltipla (cf. Como exatamente se "controla outras variáveis"? E Como adicionar um 2º IV torna o 1º IV significativo? ).

Repor a Monica
fonte
1
Ótimas explicações! @gung
Aaron Zeng