Como posso corrigir o erro de medição na variável dependente em uma regressão de logit?

8

Estou executando uma regressão binária de logit em que sei que a variável dependente é codificada incorretamente em uma pequena porcentagem de casos. Então, eu estou tentando estimar neste modelo:β

prob(yi)=1/(1+ezi)

zi=α+Xiβ

Mas em vez do vetor , eu tenho , que inclui alguns erros aleatórios (ie , mas , ou vice-versa, para alguns ).YY~yi=1yi~=0i

Existe uma correção (razoavelmente) simples para esse problema?

Eu sei que o logit tem algumas boas propriedades nos estudos de controle de caso. Parece provável que algo semelhante se aplique aqui, mas não consegui encontrar uma boa solução.

Algumas outras restrições: esse é um aplicativo de mineração de texto; portanto, as dimensões de são grandes (milhares ou dezenas de milhares). Isso pode excluir alguns procedimentos computacionalmente intensivos.X

Além disso, não me importo com a estimativa correta de , apenas .αβ

Abe
fonte

Respostas:

2

Essa situação é geralmente chamada de erro de classificação incorreta. Este artigo pode ajudá-lo a estimar corretamente . EDIT: Encontrei artigos com aparência relevante usando http://www.google.com/search?q=misclassification+of+dependent+variable+logistic .β

GaBorgulya
fonte
1
De acordo com o resumo, este artigo parece tratar de uma "covariável binária propensa a erros": ou seja, apenas com variáveis independentes classificadas incorretamente .
whuber
1
Na verdade, o resumo trata de ambos: "Para classificação incorreta de resultados, argumentamos que uma análise baseada em probabilidade é a abordagem mais limpa e mais preferível. No caso de classificação
errônea
2

Você pode estimar um modelo paramétrico do erro usando o MLE ou pode usar uma abordagem semi-paramétrica com base em algo como o estimador de correlação de classificação máxima (MRC). Computacionalmente, o MRC é proibitivo para amostras grandes, portanto parece que o MLE é a abordagem certa para mim.

Agradecemos a GaBorgulya por alguma orientação boa e rápida, especialmente no termo "erro de classificação incorreta".

Aqui estão algumas boas fontes sobre o tópico:

O modelo básico, exatamente como descrito no problema original

Versão não bloqueada do mesmo

Um modelo mais complicado, mas mais geral

Uma boa visão geral

Abe
fonte