Todos conhecemos estudos observacionais que tentam estabelecer um nexo de causalidade entre um preditor não aleatório X e um resultado, incluindo todos os possíveis fatores de confusão imagináveis em um modelo de regressão múltipla. Ao “controlar” todos os fatores de confusão, diz o argumento, isolamos o efeito do preditor de interesse.
Estou desenvolvendo um desconforto crescente com essa idéia, com base principalmente em observações indiretas feitas por vários professores das minhas aulas de estatística. Eles se enquadram em algumas categorias principais:
1. Você só pode controlar as covariáveis que pensa e mede.
Isso é óbvio, mas me pergunto se é realmente o mais pernicioso e intransponível de todos.
2. A abordagem levou a erros feios no passado.
Por exemplo, Petitti e Freedman (2005) discutem como décadas de estudos observacionais ajustados estatisticamente chegaram a conclusões desastrosamente incorretas sobre o efeito da terapia de reposição hormonal no risco de doença cardíaca. RCTs posteriores encontraram efeitos quase opostos.
3. A relação preditor-resultado pode se comportar de maneira estranha quando você controla as covariáveis.
Yu-Kang Tu, Gunnell e Gilthorpe (2008) discutem algumas manifestações diferentes, incluindo o Paradoxo de Lord, Paradoxo de Simpson e variáveis supressoras.
4. É difícil para um único modelo (regressão múltipla) ajustar adequadamente as covariáveis e modelar simultaneamente a relação preditor-resultado.
Eu ouvi isso como uma razão para a superioridade de métodos como escores de propensão e estratificação em fatores de confusão, mas não tenho certeza se realmente entendi.
5. O modelo ANCOVA exige que a covariável e preditora de interesse seja independente.
Obviamente, ajustamos os fatores de confusão precisamente PORQUE eles estão correlacionados com o preditor de interesse; portanto, ao que parece, o modelo não terá êxito nos casos exatos em que mais queremos. O argumento é que o ajuste é apropriado apenas para redução de ruído em ensaios randomizados. Miller e Chapman, 2001 fazem uma ótima revisão.
Então, minhas perguntas são:
- Quão sérios são esses problemas e outros que talvez eu não conheça?
- Quão assustado devo ter quando vejo um estudo que "controla tudo"?
(Espero que esta questão não esteja se aventurando muito no território de discussão e, com prazer, convide sugestões para melhorá-la.)
EDIT : Adicionei o ponto 5 depois de encontrar uma nova referência.
fonte
Respostas:
Talvez haja uma resposta amplamente aceita, não estatística, a - que suposições é preciso fazer para afirmar que realmente controlamos as covariáveis.
Isso pode ser feito com os gráficos causais da Judea Pearl e com o cálculo .
Veja http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf , além de outros materiais em seu site.
Agora, como estatísticos, sabemos que todos os modelos são falsos, e a verdadeira questão estatística é a suposição identificada que provavelmente não está muito errada, de modo que nossa resposta é aproximadamente OK. Pearl está ciente disso e o discute em seu trabalho, mas talvez não de forma explícita e com freqüência suficiente para evitar frustrar muitos estatísticos com sua pretensão de ter uma resposta (o que acredito que ele faz para quais suposições são necessárias? ).
(Atualmente, a ASA está oferecendo um prêmio por material didático para incluir esses métodos nos cursos de estatística, veja aqui )
fonte
Resposta à pergunta 1:
Resposta à pergunta 2:
Tenha muito medo. Para simplesmente reiterar o que outros já disseram e citar (grosso modo) o elegante texto introdutório de Richard McElreath sobre pensamento crítico em modelagem estatística :
"... todos os modelos são falsos, mas alguns são úteis ..."
fonte