Considere amostragem de dados a partir de uma população de tamanho da seguinte forma: Para
Observar o status individual de "doença" de
Se eles tiverem a doença, inclua-os na amostra com probabilidade
Se eles não tiverem a doença, inclua-os com probabilidade .
Suponha-lhe observada uma variável de saída binário e preditor vector , para sujeitos amostrados dessa maneira. A variável de resultado não é o status "doença". Quero estimar os parâmetros do modelo de regressão logística:
Tudo o que me interessa são os índices de log (log), . A interceptação é irrelevante para mim.
Minha pergunta é: Posso obter estimativas sensatas de ignorando as probabilidades de amostragem , ajustando o modelo como se era uma amostra aleatória comum?
Estou quase certo de que a resposta a esta pergunta é "sim". O que estou procurando é uma referência que valide isso.
Há duas razões principais pelas quais estou confiante sobre a resposta:
Eu fiz muitos estudos de simulação e nenhum deles contradiz isso, e
É fácil mostrar que, se a população é governada pelo modelo acima, o modelo que governa os dados amostrados é
Se as probabilidades de amostragem não dependessem de , isso representaria uma simples mudança para a interceptação e a estimativa pontual de claramente não seria afetada. Mas, se as compensações são diferentes para cada pessoa, essa lógica não se aplica completamente, pois você certamente obterá uma estimativa de pontos diferente, embora eu suspeite que algo semelhante ocorra. β
Relacionado: O artigo clássico de Prentice e Pyke (1979) diz que os coeficientes de regressão logística de um caso-controle (com status de doença como resultado) têm a mesma distribuição que os coletados em um estudo prospectivo. Suspeito que esse mesmo resultado se aplique aqui, mas devo confessar que não entendo completamente cada pedaço do artigo.
Agradecemos antecipadamente por quaisquer comentários / referências.
fonte
Respostas:
Essa é uma variação do modelo de seleção em econometria. A validade das estimativas usando apenas a amostra selecionada aqui depende da condição de . Aqui é o status da doença de .Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Para fornecer mais detalhes, defina as seguintes notações: e ; refere-se ao evento que está na amostra. Além disso, suponha que seja independente de por simplicidade.π1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
A probabilidade de para uma unidade na amostra é pela lei da expulsão iterada. Suponha que condicional ao status da doença e outras covariáveis , o resultado seja independente de . Como um resultado,Yi=1 i
É tentado incluir como uma variável explicativa adicional e estimar o modelo com base em . Para justificar a validade do uso de , precisamos provar que , que é equivalente à condição em que é uma estatística suficiente de . Sem mais informações sobre o seu processo de amostragem, não tenho certeza se é verdade. Vamos usar uma notação abstrata. A variável de observabilidade pode ser vista como função aleatória de e as outras variáveis aleatórias, por exemploDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Denota . Se
é independente de condicional em e , temos
pela definição de independência. No entanto, se não é independente de após o condicionamento em e ,
intuitivamente contém algumas informações relevantes sobre
e, em geral, não é esperado queSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Assim, no caso "no entanto", a ignorância da seleção da amostra pode ser enganosa por inferência. Não estou muito familiarizado com a literatura de seleção de amostras em econometria. Eu recomendaria que o Capítulo 16 de
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
Variáveis qualitativas e dependentes limitadas da econometria seja um tratamento sistemático das questões sobre seleção de amostras e resultados discretos.fonte