Uma suposição básica do uso de modelos de regressão para inferência é que "todos os preditores relevantes" foram incluídos na equação de previsão. A lógica é que a falha em incluir um fator importante do mundo real leva a coeficientes tendenciosos e, portanto, inferências imprecisas (ou seja, viés variável omitido).
Mas, na prática de pesquisa, nunca vi alguém incluindo algo parecido com "todos os preditores relevantes". Muitos fenômenos têm uma miríade de causas importantes e seria muito difícil, se não impossível, incluir todos eles. Um exemplo simples é modelar a depressão como resultado: ninguém construiu nada próximo a um modelo que inclua "todas as variáveis relevantes": por exemplo, história dos pais, traços de personalidade, apoio social, renda, suas interações etc. etc ...
Além disso, o ajuste de um modelo tão complexo levaria a estimativas altamente instáveis, a menos que houvesse tamanhos de amostra muito grandes.
Minha pergunta é muito simples: a suposição / conselho para "incluir todos os preditores relevantes" é apenas algo que "dizemos", mas nunca realmente significa? Se não, então por que damos isso como conselhos reais de modelagem?
E isso significa que a maioria dos coeficientes é provavelmente enganosa? (por exemplo, um estudo sobre fatores de personalidade e depressão que usa apenas vários preditores). Em outras palavras, qual é o tamanho de um problema para as conclusões de nossas ciências?
Respostas:
Você está certo - raramente somos realistas ao dizer "todos os preditores relevantes". Na prática, podemos estar satisfeitos com incluindo indicadores que explicam as principais fontes de variação em . No caso especial de extrair inferência sobre um fator de risco ou tratamento em um estudo observacional, isso raramente é bom o suficiente. Para isso, o ajuste para confundir precisa ser altamente agressivo, incluindo variáveis que poderiam estar relacionados com resultado e pode ser relacionados a escolha do tratamento ou para o fator de risco que você está tentando divulgar.Y
Está interessado que, no modelo linear normal, covariáveis omitidas, especialmente se covariáveis ortogonais às incluídas, podem ser consideradas apenas ampliando o termo de erro. Nos modelos não lineares (logística, Cox, muitos outros), a omissão de variáveis pode influenciar os efeitos de todas as variáveis incluídas no modelo (devido à não colapsibilidade do odds ratio, por exemplo).
fonte
Sim, você deve incluir todas as "variáveis relevantes", mas deve ser inteligente quanto a isso. Você deve pensar nas maneiras de construir os experimentos que isolariam o impacto do seu fenômeno de coisas não relacionadas, o que é uma abundância de pesquisas no mundo real (em oposição a uma sala de aula). Antes de entrar nas estatísticas, você deve fazer o trabalho pesado em seu domínio, não nas estatísticas.
Encorajo você a não ser cínico ao incluir todas as variáveis relevantes, porque não é apenas uma meta nobre, mas também porque muitas vezes é possível. Não dizemos isso apenas por uma questão de dizer. Nós realmente queremos dizer isso. De fato, projetar experimentos e estudos capazes de incluir todas as variáveis relevantes é o que torna a ciência realmente interessante e diferente dos "experimentos" de placas de caldeiras mecânicas.
Para motivar minha afirmação, darei um exemplo de como Galileu estudou aceleração. Aqui está a descrição de um experimento real ( nesta página da web ):
Preste atenção em como ele mediu o tempo. É tão grosseiro que me lembra como atualmente as ciências não naturais medem suas variáveis, pensam em "satisfação do cliente" ou "utilidade". Ele menciona que o erro de medição estava dentro de um décimo de uma unidade de tempo, btw.
Ele incluiu todas as variáveis relevantes? Sim ele fez. Agora, você precisa entender que todos os corpos são atraídos um pelo outro pela gravidade. Então, em teoria, para calcular a força exata na bola, você deve adicionar todos os corpos do universo à equação. Além disso, muito mais importante, ele não incluiu resistência da superfície, resistência ao ar, momento angular etc. Tudo isso afetou suas medições? Sim. No entanto, eles não eram relevantes para o que ele estava estudando porque ele era capaz de reduzir ou eliminar o impacto deles, isolando o impacto da propriedade que ele estava estudando.
fonte
Para que as suposições do modelo de regressão sejam mantidas perfeitamente, todos os preditores relevantes devem ser incluídos. Mas nenhuma das suposições em qualquer análise estatística se sustenta perfeitamente e grande parte da prática estatística é baseada em "Fechar o suficiente".
Com o Projeto de experimentos e a randomização adequada, o efeito de termos não incluídos nos modelos pode frequentemente ser ignorado (assumido igual pela chance de randomização). Porém, a regressão geralmente é usada quando a randomização completa não é possível para contabilizar todas as variáveis possíveis não incluídas no modelo, portanto sua pergunta se torna importante.
Praticamente todos os modelos de regressão que já se encaixam provavelmente estão faltando alguns preditores em potencial, mas "Eu não sei" sem maiores esclarecimentos não permitiria que os estatísticos que trabalhavam continuassem trabalhando, então tentamos o nosso melhor e depois tentamos descobrir quanto a diferença entre as premissas e a realidade afetará nossos resultados. Em alguns casos, a diferença das suposições faz muito pouca diferença e não nos preocupamos muito com a diferença, mas em outros casos pode ser muito grave.
Uma opção quando você sabe que pode haver preditores que não foram incluídos no modelo que seriam relevantes é fazer uma análise de sensibilidade. Isso mede o quanto o viés seria possível com base em possíveis relacionamentos com as variáveis não medidas. Este papel:
fornece algumas ferramentas (e exemplos) de uma análise de sensibilidade.
fonte