Realmente precisamos incluir "todos os preditores relevantes?"

15

Uma suposição básica do uso de modelos de regressão para inferência é que "todos os preditores relevantes" foram incluídos na equação de previsão. A lógica é que a falha em incluir um fator importante do mundo real leva a coeficientes tendenciosos e, portanto, inferências imprecisas (ou seja, viés variável omitido).

Mas, na prática de pesquisa, nunca vi alguém incluindo algo parecido com "todos os preditores relevantes". Muitos fenômenos têm uma miríade de causas importantes e seria muito difícil, se não impossível, incluir todos eles. Um exemplo simples é modelar a depressão como resultado: ninguém construiu nada próximo a um modelo que inclua "todas as variáveis ​​relevantes": por exemplo, história dos pais, traços de personalidade, apoio social, renda, suas interações etc. etc ...

Além disso, o ajuste de um modelo tão complexo levaria a estimativas altamente instáveis, a menos que houvesse tamanhos de amostra muito grandes.

Minha pergunta é muito simples: a suposição / conselho para "incluir todos os preditores relevantes" é apenas algo que "dizemos", mas nunca realmente significa? Se não, então por que damos isso como conselhos reais de modelagem?

E isso significa que a maioria dos coeficientes é provavelmente enganosa? (por exemplo, um estudo sobre fatores de personalidade e depressão que usa apenas vários preditores). Em outras palavras, qual é o tamanho de um problema para as conclusões de nossas ciências?

ATJ
fonte
6
Uma versão desse argumento se enfureceu na psicologia, economia e ciências sociais ao longo do século XIX. Os cientistas argumentaram que os métodos estatísticos eram inaplicáveis ​​às pessoas e aos sistemas sociais porque as pessoas são muito variadas e complexas. No final desse século, a utilidade venceu a filosofia: mesmo quando não incluímos todos os preditores, ainda podemos aprender muito. Há sabedoria na inclusão de "relevante" na frase-título.
whuber

Respostas:

18

Você está certo - raramente somos realistas ao dizer "todos os preditores relevantes". Na prática, podemos estar satisfeitos com incluindo indicadores que explicam as principais fontes de variação em . No caso especial de extrair inferência sobre um fator de risco ou tratamento em um estudo observacional, isso raramente é bom o suficiente. Para isso, o ajuste para confundir precisa ser altamente agressivo, incluindo variáveis que poderiam estar relacionados com resultado e pode ser relacionados a escolha do tratamento ou para o fator de risco que você está tentando divulgar.Y

Está interessado que, no modelo linear normal, covariáveis ​​omitidas, especialmente se covariáveis ​​ortogonais às incluídas, podem ser consideradas apenas ampliando o termo de erro. Nos modelos não lineares (logística, Cox, muitos outros), a omissão de variáveis ​​pode influenciar os efeitos de todas as variáveis ​​incluídas no modelo (devido à não colapsibilidade do odds ratio, por exemplo).

Frank Harrell
fonte
Obrigado pela informação útil. Deixando de lado a avaliação dos efeitos do tratamento, gostaria de perguntar mais sobre as implicações pragmáticas desse problema. Se você revisasse um artigo e houvesse indicadores claramente importantes omitidos, isso poderia ser motivo de rejeição? Eu pergunto isso porque: a.) Eu nunca ouvi falar disso e (b) os cientistas sociais geralmente incluem APENAS os preditores sobre os quais desejam saber mais (isto é, o tópico do estudo) e negligenciam os fatores "já conhecidos" ( com base na necessidade de uma medição mais eficiente).
ATJ 28/03
Por exemplo, não é incomum ver um modelo de variável latente com apenas um preditor ÚNICO para uma variável endógena. Isso fala da diferença entre o campo da estatística e sua implementação em áreas temáticas reais?
ATJ 28/03
6
Provavelmente sim. Para a pergunta anterior, os motivos de rejeição incluiriam a omissão de variáveis ​​importantes cuja inclusão daria uma interpretação diferente das variáveis ​​incluídas, ou que teria mudado drasticamente o modelo. Certa vez, revi um artigo sobre o risco de câncer de pulmão que só tinha disponível se um sujeito já havia ou não fumado, e os autores não tentaram avaliar a dose de fumar (por exemplo, maços-ano). Eu recomendei a rejeição total.
Frank Harrell
9

Sim, você deve incluir todas as "variáveis ​​relevantes", mas deve ser inteligente quanto a isso. Você deve pensar nas maneiras de construir os experimentos que isolariam o impacto do seu fenômeno de coisas não relacionadas, o que é uma abundância de pesquisas no mundo real (em oposição a uma sala de aula). Antes de entrar nas estatísticas, você deve fazer o trabalho pesado em seu domínio, não nas estatísticas.

Encorajo você a não ser cínico ao incluir todas as variáveis ​​relevantes, porque não é apenas uma meta nobre, mas também porque muitas vezes é possível. Não dizemos isso apenas por uma questão de dizer. Nós realmente queremos dizer isso. De fato, projetar experimentos e estudos capazes de incluir todas as variáveis ​​relevantes é o que torna a ciência realmente interessante e diferente dos "experimentos" de placas de caldeiras mecânicas.

Para motivar minha afirmação, darei um exemplo de como Galileu estudou aceleração. Aqui está a descrição de um experimento real ( nesta página da web ):

Um pedaço de madeira moldada ou escamosa, com cerca de 12 côvados de comprimento, meio côvado de largura e três dedos de largura de espessura, foi tomada; em sua borda havia um canal com pouco mais de um dedo de largura; Tendo tornado esse sulco muito reto, liso e polido, e revestido de pergaminho, também o mais liso e polido possível, rolamos ao longo uma bola de bronze dura, suave e muito redonda. Tendo colocado este tabuleiro em uma posição inclinada, elevando uma ponta a um ou dois côvados acima da outra, rolamos a bola, como eu estava dizendo, ao longo do canal, observando, de uma maneira atualmente descrita, o tempo necessário fazer a descida. Repetimos esse experimento mais de uma vez para medir o tempo com precisão, de modo que o desvio entre duas observações nunca excedesse um décimo de uma pulsação. Tendo realizado essa operação e garantido sua confiabilidade, agora rolamos a bola apenas um quarto do comprimento do canal; e tendo medido o tempo de sua descida, achamos precisamente metade da primeira. Em seguida, tentamos outras distâncias, comparando o tempo de toda a extensão com o da metade, ou com o de dois terços, ou três quartos, ou mesmo com qualquer fração; em tais experimentos, repetidos centenas de vezes, sempre descobrimos que os espaços percorridos eram um para o outro como os quadrados dos tempos, e isso era verdade para todas as inclinações do plano, isto é, do canal ao longo do qual rolamos o bola. Também observamos que os tempos de descida, para várias inclinações do avião, se conformavam precisamente àquela proporção que, como veremos mais adiante,

Para medir o tempo, empregamos um grande vaso de água colocado em uma posição elevada; ao fundo deste navio, foi soldado um cano de pequeno diâmetro, produzindo um jato fino de água que coletamos em um copo pequeno durante o tempo de cada descida, seja por todo o comprimento do canal ou por parte de seu comprimento; a água assim coletada era pesada, após cada descida, em uma balança muito precisa; as diferenças e proporções desses pesos nos deram as diferenças e proporções dos tempos, e isso com tanta precisão que, embora a operação tenha sido repetida muitas e muitas vezes, não houve discrepância apreciável nos resultados.

d=gt2,
dgtd0 0=1t0 0dEutEud0 0/dEut0 02/tEu2
d0 0dEu=t0 02tEu2

Preste atenção em como ele mediu o tempo. É tão grosseiro que me lembra como atualmente as ciências não naturais medem suas variáveis, pensam em "satisfação do cliente" ou "utilidade". Ele menciona que o erro de medição estava dentro de um décimo de uma unidade de tempo, btw.

Ele incluiu todas as variáveis ​​relevantes? Sim ele fez. Agora, você precisa entender que todos os corpos são atraídos um pelo outro pela gravidade. Então, em teoria, para calcular a força exata na bola, você deve adicionar todos os corpos do universo à equação. Além disso, muito mais importante, ele não incluiu resistência da superfície, resistência ao ar, momento angular etc. Tudo isso afetou suas medições? Sim. No entanto, eles não eram relevantes para o que ele estava estudando porque ele era capaz de reduzir ou eliminar o impacto deles, isolando o impacto da propriedade que ele estava estudando.

t2

Aksakal
fonte
O que há de tão grosseiro em seu método de medir o tempo? A instalação terá uma taxa específica na qual a água deixará a embarcação grande e entrará no copo; supondo que o navio contenha uma grande quantidade de água, essa taxa mudará minimamente. Mais importante, ele permanecerá consistente entre os experimentos. Na verdade, é um método muito elegante, pois eles não tinham cronômetros e cronômetros automáticos sofisticados na época.
JAB
@JAB, é grosseiro apenas em comparação com o cronômetro ou as formas modernas de medir o tempo, é claro. Você está absolutamente certo de que é muito elegante, dado o estado da arte da medição do tempo nos dias de Galileu. No entanto, o ponto que eu estava fazendo era que, mesmo aparentemente tão baixa precisão (1/10 de um intervalo) foi ainda suficiente para observar a relação entre tempo e distância
Aksakal
@JAB, um dos meus exemplos favoritos de métodos de medição ridículos em física é como Cherenkov descobriu sua radiação . Ele se sentava em um quarto escuro até que seus olhos se ajustassem à escuridão, então ele abria ou fechava o buraco com luz saindo dele até que a luz desaparecesse. Ele gravaria quanto de um buraco estava aberto para detectar o nível de radiação. Aparentemente, o olho humano pode detectar a diferença de luz medida em um punhado de fótons! O artigo tem 3 páginas.
Aksakal
6

Para que as suposições do modelo de regressão sejam mantidas perfeitamente, todos os preditores relevantes devem ser incluídos. Mas nenhuma das suposições em qualquer análise estatística se sustenta perfeitamente e grande parte da prática estatística é baseada em "Fechar o suficiente".

Com o Projeto de experimentos e a randomização adequada, o efeito de termos não incluídos nos modelos pode frequentemente ser ignorado (assumido igual pela chance de randomização). Porém, a regressão geralmente é usada quando a randomização completa não é possível para contabilizar todas as variáveis ​​possíveis não incluídas no modelo, portanto sua pergunta se torna importante.

Praticamente todos os modelos de regressão que já se encaixam provavelmente estão faltando alguns preditores em potencial, mas "Eu não sei" sem maiores esclarecimentos não permitiria que os estatísticos que trabalhavam continuassem trabalhando, então tentamos o nosso melhor e depois tentamos descobrir quanto a diferença entre as premissas e a realidade afetará nossos resultados. Em alguns casos, a diferença das suposições faz muito pouca diferença e não nos preocupamos muito com a diferença, mas em outros casos pode ser muito grave.

Uma opção quando você sabe que pode haver preditores que não foram incluídos no modelo que seriam relevantes é fazer uma análise de sensibilidade. Isso mede o quanto o viés seria possível com base em possíveis relacionamentos com as variáveis ​​não medidas. Este papel:

Lin, DY e Psaty, BM e Kronmal, RA. (1998): Avaliando a sensibilidade dos resultados da regressão a fatores de confusão não medidos em estudos observacionais. Biometrics, 54 (3), set. Pp. 948-963.

fornece algumas ferramentas (e exemplos) de uma análise de sensibilidade.

Greg Snow
fonte