Estimando coeficientes de regressão logística em um projeto de controle de caso quando a variável de resultado não é status de caso / controle

10

Considere amostragem de dados a partir de uma população de tamanho N da seguinte forma: Para k=1,...,N

  1. Observar o status individual de "doença" de k

  2. Se eles tiverem a doença, inclua-os na amostra com probabilidade pk1

  3. Se eles não tiverem a doença, inclua-os com probabilidade pk0 .

Suponha-lhe observada uma variável de saída binário Yi e preditor vector Xi , para i=1,...,n sujeitos amostrados dessa maneira. A variável de resultado não é o status "doença". Quero estimar os parâmetros do modelo de regressão logística:

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Tudo o que me interessa são os índices de log (log), β . A interceptação é irrelevante para mim.

Minha pergunta é: Posso obter estimativas sensatas de β ignorando as probabilidades de amostragem {pi1,pi0} , i=1,...,n ajustando o modelo como se era uma amostra aleatória comum?


Estou quase certo de que a resposta a esta pergunta é "sim". O que estou procurando é uma referência que valide isso.

Há duas razões principais pelas quais estou confiante sobre a resposta:

  1. Eu fiz muitos estudos de simulação e nenhum deles contradiz isso, e

  2. É fácil mostrar que, se a população é governada pelo modelo acima, o modelo que governa os dados amostrados é

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Se as probabilidades de amostragem não dependessem de , isso representaria uma simples mudança para a interceptação e a estimativa pontual de claramente não seria afetada. Mas, se as compensações são diferentes para cada pessoa, essa lógica não se aplica completamente, pois você certamente obterá uma estimativa de pontos diferente, embora eu suspeite que algo semelhante ocorra. βiβ

Relacionado: O artigo clássico de Prentice e Pyke (1979) diz que os coeficientes de regressão logística de um caso-controle (com status de doença como resultado) têm a mesma distribuição que os coletados em um estudo prospectivo. Suspeito que esse mesmo resultado se aplique aqui, mas devo confessar que não entendo completamente cada pedaço do artigo.

Agradecemos antecipadamente por quaisquer comentários / referências.

Macro
fonte
11
Você afirma que "a variável de resultado não é o status da doença ". O que indica? Bem-vindo de volta ao CV, btw. Yi=1
gung - Restabelece Monica
11
Yi é uma variável diferente. O que quero dizer é que a variável que determina sua probabilidade de amostragem (geralmente o status da doença em um controle de caso) não é a mesma que a variável de resultado - pense na análise secundária de um conjunto de dados. Por exemplo, digamos que a amostra tenha sido gerada amostrando sistematicamente usuários de drogas e um conjunto adicional (com frequência correspondente, com certas covariáveis) de não usuários de drogas, mas a variável de resultado que você está estudando é outra medida comportamental. Nesse caso, o esquema de amostragem é um incômodo. Obrigado, btw!
Macro

Respostas:

8

Essa é uma variação do modelo de seleção em econometria. A validade das estimativas usando apenas a amostra selecionada aqui depende da condição de . Aqui é o status da doença de .Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Para fornecer mais detalhes, defina as seguintes notações: e ; refere-se ao evento que está na amostra. Além disso, suponha que seja independente de por simplicidade.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

A probabilidade de para uma unidade na amostra é pela lei da expulsão iterada. Suponha que condicional ao status da doença e outras covariáveis , o resultado seja independente de . Como um resultado, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
É fácil ver que Aqui e são como seu esquema de amostragem definido. Portanto,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Se , temos e você pode omitir o problema de seleção de amostra. Por outro lado, se , em geral. Como um caso específico, considere o modelo de logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Mesmo quando e são constantes em , a distribuição resultante não manterá a formação do logit. Mais importante, as interpretações dos parâmetros seriam totalmente diferentes. Felizmente, os argumentos acima ajudam a esclarecer um pouco o seu problema.pi1pi0i

É tentado incluir como uma variável explicativa adicional e estimar o modelo com base em . Para justificar a validade do uso de , precisamos provar que , que é equivalente à condição em que é uma estatística suficiente de . Sem mais informações sobre o seu processo de amostragem, não tenho certeza se é verdade. Vamos usar uma notação abstrata. A variável de observabilidade pode ser vista como função aleatória de e as outras variáveis ​​aleatórias, por exemploDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Denota . Se é independente de condicional em e , temos pela definição de independência. No entanto, se não é independente de após o condicionamento em e , intuitivamente contém algumas informações relevantes sobre e, em geral, não é esperado queSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Assim, no caso "no entanto", a ignorância da seleção da amostra pode ser enganosa por inferência. Não estou muito familiarizado com a literatura de seleção de amostras em econometria. Eu recomendaria que o Capítulo 16 de Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookVariáveis ​​qualitativas e dependentes limitadas da econometria seja um tratamento sistemático das questões sobre seleção de amostras e resultados discretos.

semibruína
fonte
2
Obrigado. Esta é uma ótima resposta e faz todo o sentido. Na minha aplicação, a suposição de que não é realista. Mas, seria tão bom adicionar como um preditor e considerar a distribuição . Usando uma derivação semelhante, acho que você pode mostrar que se , então você está bem. Esta é uma suposição razoável no meu caso. O que você acha? BTW, você teria alguma referência que mencione esse problema? Eu não estou familiarizado com a literatura econométrica. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Macro
Estou confortável em pensar no processo de seleção como sendo um teste de bernoulli, ou seja, Sob essa suposição de geração de dados, esse teste de bernoulli é condicionalmente independente de , então acho que estamos bem. Agradeço seus esforços e insights sobre esse problema e estou aceitando a resposta. Supondo que ninguém venha com a referência exata que estou procurando (eu preferiria simplesmente "citar" esse problema, em vez de discordar com uma discussão prolongada), também recompensarei a você. Felicidades.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Macro
Esse processo de seleção se adapta à sua estratégia. Com base nesse problema de seleção, seu problema se torna um exemplo de falta aleatória (MAR) na literatura de dados ausentes. Obrigado pelo seu prêmio.
Semibruin