Ajustar para tudo o que você tem na pontuação de propensão?

9

Eu tenho uma pergunta metodológica e, portanto, nenhum conjunto de dados de amostra está anexado.

Estou planejando fazer uma regressão de Cox ajustada no escore de propensão que visa examinar se um determinado medicamento reduzirá o risco de um resultado. O estudo é observacional, composto por 10.000 indivíduos.

O conjunto de dados contém 60 variáveis. Eu acho que 25 deles podem afetar a alocação do tratamento. Eu nunca ajustaria todos os 25 deles em uma regressão de Cox, mas ouvi dizer que você pode incluir muitas variáveis ​​como preditores em um escore de propensão e incluir apenas a subclasse do escore de propensão e a variável de tratamento na regressão de Cox.

(covariáveis ​​que não serão iguais após o ajuste do escore de props obviamente teriam que ser incluídas na regressão de Cox).

Resumindo, é realmente inteligente incluir tantos preditores no escore de prop?


@ Dimitriy V. Masterov Obrigado por compartilhar esses fatos importantes. Ao contrário dos livros e artigos que consideram outras estruturas de regressão, não vejo nenhuma (lendo o livro de Rosenbaums) diretrizes sobre a seleção de modelos nas análises de pontuação de propensão. Embora os livros-texto / artigos de revisão padrão pareçam sempre recomendar seleção rigorosa de variáveis ​​e manter o número de preditores baixo, não vi muito dessa discussão nas análises de pontuação de prop. Você escreve: (1) "Visão teórica, conhecimento institucional e boa pesquisa devem orientar a seleção de Xs". Concordo, mas há circunstâncias em que temos uma variável em mãos e realmente não sabemos (mas pode ser possível) se a variável afeta a alocação ou o resultado do tratamento. Por exemplo: devo incluir a função renal, medida pela taxa de filtração, em um escore de suporte com o objetivo de ajustar o tratamento com estatina. O tratamento com estatina não tem nada a ver com a função renal e eu já incluí uma série de variáveis ​​que afetarão o tratamento com estatina. Mas ainda é tentador incluir a função renal; pode se ajustar ainda mais. Agora, alguns diriam que deve ser incluído porque afeta o resultado, mas eu poderia dar outro exemplo (como a variável binária vida urbana / rural) de uma variável que não afeta o tratamento nem o resultado, tanto quanto sabemos. Mas eu gostaria de incluí-lo, desde que não t afeta a precisão da pontuação do suporte. 2)"A inclusão de X afetados pelo tratamento, ex post ou ex ante, em antecipação ao tratamento, invalidará a suposição". Não sei o que você quer dizer aqui. Mas se eu estudar o efeito das estatinas no resultado cardiovascular, incluirei várias medidas de lipídios no sangue no escore de propensão. Os lipídios no sangue são afetados pelo tratamento. Acho que não entendi bem essa afirmação.

@statsRus, obrigado por compartilhar os fatos, principalmente o que você chama de "uma observação sobre a seleção de entradas". Acho que raciocino da mesma maneira que você.

Infelizmente, os métodos de pontuação prop discutem várias estratégias de ajuste em vez de estratégias de seleção de modelo. Talvez o ajuste do modelo não seja importante. Se for esse o caso, eu ajustaria para cada variável disponível que possa afetar o resultado e a alocação de tratamento o menor. Eu não sou um estatístico, mas se o ajuste do modelo não for importante, gostaria de ajustar todas as variáveis ​​que possam afetar a alocação e o resultado do tratamento. Em muitos casos, isso significaria incluir variáveis ​​que serão efetuadas pelo tratamento.

Além disso, algumas pessoas sugerem que a regressão subsequente de Cox deve incluir apenas a variável de tratamento e a subclasse de escore de prop. Enquanto outros sugerem que o ajuste cox deve incluir a pontuação adicional adicionalmente a todas as outras variáveis ​​pelas quais você ajustaria.

Adam Robinsson
fonte

Respostas:

8

Pessoalmente, faço essa pergunta há pelo menos 5 anos, pois para mim é a "grande" questão prática de usar a correspondência de propensão nos dados observacionais para estimar os efeitos causais. Essa é uma pergunta excelente e há uma discordância sutil que é profunda nas estatísticas versus as comunidades de ciência da computação.

De acordo com minha experiência, os estatísticos tendem a advogar "jogar a pia da cozinha" de entradas observáveis ​​na estimativa do escore de propensão, enquanto os cientistas da computação tendem a advogar uma razão teórica para as entradas (embora os estatísticos possam ocasionalmente mencionar a importância da teoria na justificação da seleção de entradas no modelo de pontuação de propensão). A diferença, acredito, decorre do fato de que os cientistas da computação (em particular a Judea Pearl) tendem a pensar em causal em termos de gráficos acíclicos direcionados. Ao visualizar a causalidade por meio de gráficos acíclicos direcionados, é bastante fácil ver que você pode condicionar uma variável chamada "colisor", que pode "desbloquear" caminhos de backdoor e, na verdade, induzir um viés na sua estimativa de um efeito causal.

O meu takeaway? Se você tem uma teoria sólida sobre o que afeta a seleção no tratamento, use-a na estimativa do escore de propensão. Em seguida, faça uma análise de sensibilidade para determinar a sensibilidade da sua estimativa às variáveis ​​de confusão não observadas. Se você não tem quase nenhuma teoria para guiá-lo, jogue na "pia da cozinha" e faça uma análise de sensibilidade.

Uma observação sobre a seleção de entradas para o modelo de pontuação de propensão (isso pode ser óbvio, mas vale a pena observar para outras pessoas que não estão familiarizadas com a estimativa de efeitos causais a partir de dados observacionais): Não controle para variáveis ​​pós-tratamento. Ou seja, você deseja que suas entradas no modelo de pontuação de propensão sejam medidas antes do tratamento e que seu resultado seja medido após o tratamento. Em dados observacionais, isso praticamente significa que você precisa de três ondas de dados, com um conjunto detalhado de linhas de base de covariáveis, tratamento medido na segunda onda e o resultado medido na onda final.

statsRus
fonte
Este é um artigo recente que aborda a questão do condicionamento em uma variável colisor (o artigo sugere que o viés M é provavelmente pequeno, dando credibilidade à abordagem "pia da cozinha" de lançar insumos no modelo de propensão: arxiv.org/abs /1408.0324
statsRus
7

P

Há muitas vantagens do ajuste covariável usando o logit PS. Normalmente, divino o logit do PS para incluir como variável de ajuste de vários graus de liberdade, depois de fazer a devida diligência em relação às regiões que não se sobrepõem. Consulte http://www.citeulike.org/user/harrelfe/article/13340175 e http://www.citeulike.org/user/harrelfe/article/13265389 e mais artigos em http://www.citeulike.org/ usuário / harrelfe / tag / propensity-score .

Y

Eu duvido de qualquer método de correspondência que resulte no descarte de observações correspondíveis ou que seja altamente dependente da ordem do conjunto de dados. As observações descartadas têm muito a dizer sobre como os efeitos covariáveis ​​devem ser estimados.

Frank Harrell
fonte
Os links estão quebrados. Você pode explicar quais são as vantagens de usar o logit do PS em vez do PS bruto para correspondência?
DS_Enthusiast 16/03
Para combinar, não importa. Mas eu recomendo contra o uso de correspondência.
Frank Harrell
3

X

XXem antecipação ao tratamento, invalidará a suposição. Por exemplo, se um agente sabe que a vacina está chegando, ele pode ajustar seu comportamento antes da injeção. Incluir instrumentos - variáveis ​​que afetam a participação e não os resultados - também é uma má idéia. Eles não ajudarão com o viés de seleção e podem piorar drasticamente o problema de suporte. Por exemplo, se algumas pessoas são incentivadas a fazer o tratamento, você não quer condicionar isso. A inclusão de variáveis ​​irrelevantes na especificação do escore de propensão pode aumentar a variação, pois alguns tratados precisam ser descartados da análise ou as unidades de controle precisam ser usadas mais de uma vez ou porque a largura de banda precisa aumentar. Em suma, a abordagem da pia da cozinha definitivamente não é recomendada.

A CIA não pode ser testada sem dados experimentais ou suposições de "super identificação" (como no caso do teste pré-programa ou de outros testes falsos de placebo). Se você tiver dados históricos suficientes, eu definitivamente tentaria este último em seu conjunto cuidadosamente selecionado.


Resposta à edição:
Não posso comentar sobre os rins, pois isso está muito longe da minha área (exceto tortas, sobre as quais sei algo). Urbano parece uma variável que afeta a participação e o resultado através dos custos associados à viagem ao hospital para tratamento e exame. Pode pegar alguns dos inobserváveis ​​que nos mantêm acordados à noite. A história de antecipação que tenho em mente é que as pessoas podem ajustar seu comportamento se souberem que serão tratadas no futuro, por exemplo, mudando suas dietas.

Dimitriy V. Masterov
fonte
2

Como o modelo de pontuação de propensão é puramente preditivo - você não está interessado em nenhum coeficiente - sempre entendi que você pode usar todas as suas variáveis ​​que afetam a entrada e o resultado da coorte. Você pode torcer essas variáveis ​​como desejar - esquadrinhe-as, enraíze-as, todos os tipos de interações etc. etc. - desde que esteja aumentando a qualidade preditiva do seu modelo.

Em teoria, você nem precisa se preocupar com os dados de espera para o seu modelo preditivo, pois não deseja generalizar esses resultados além da sua amostra (basicamente, o risco de "super ajuste" não é um problema). Finalmente, você não precisa se limitar à regressão logística; ao modelar uma saída binária, você pode até usar um modelo GAM - basicamente, qualquer coisa para melhorar as taxas de previsão.

(Devo acrescentar uma observação contrária ao ponto de uso do @statsRus: na minha experiência, são os cientistas da computação que usam todas as variáveis, enquanto os estatísticos consideram cuidadosamente cada uma. Acho que diferentes contextos de trabalho produzem diferentes hábitos de trabalho.)

Quanto ao uso da pontuação, geralmente é desencorajado usá-lo como covariável - tem menos impacto - e certamente não acompanha as variáveis ​​usadas para fazer a variável de pontuação. Pode-se argumentar se, no escore de propensão, você categorizar uma variável contínua - idade, por exemplo - em que poderá incluir a versão contínua no modelo, mas, na verdade, não categorize a variável em primeiro lugar ...

O uso da pontuação para correspondência (com compassos de calibre - especialmente correspondência da variável 1: N) é popular, mas acredito que a técnica mais impactante é a dos pesos de tratamento proporcional inverso (IPTW) - embora eu não tenha usado esse método e não me lembro como funciona.

Tente analisar o trabalho de Peter C. Austin na Universidade de Toronto - ele escreveu vários artigos sobre pontuações de propensão. Aqui está um sobre correspondência, por exemplo.

caminhadas
fonte