Estou executando uma regressão binária de logit em que sei que a variável dependente é codificada incorretamente em uma pequena porcentagem de casos. Então, eu estou tentando estimar neste modelo:
Mas em vez do vetor , eu tenho , que inclui alguns erros aleatórios (ie , mas , ou vice-versa, para alguns ).
Existe uma correção (razoavelmente) simples para esse problema?
Eu sei que o logit tem algumas boas propriedades nos estudos de controle de caso. Parece provável que algo semelhante se aplique aqui, mas não consegui encontrar uma boa solução.
Algumas outras restrições: esse é um aplicativo de mineração de texto; portanto, as dimensões de são grandes (milhares ou dezenas de milhares). Isso pode excluir alguns procedimentos computacionalmente intensivos.
Além disso, não me importo com a estimativa correta de , apenas .
Você pode estimar um modelo paramétrico do erro usando o MLE ou pode usar uma abordagem semi-paramétrica com base em algo como o estimador de correlação de classificação máxima (MRC). Computacionalmente, o MRC é proibitivo para amostras grandes, portanto parece que o MLE é a abordagem certa para mim.
Agradecemos a GaBorgulya por alguma orientação boa e rápida, especialmente no termo "erro de classificação incorreta".
Aqui estão algumas boas fontes sobre o tópico:
O modelo básico, exatamente como descrito no problema original
Versão não bloqueada do mesmo
Um modelo mais complicado, mas mais geral
Uma boa visão geral
fonte