As pessoas que trabalham com regressão logística estão familiarizadas com a questão da separação perfeita: se você tiver uma variável com valores específicos associados a apenas um dos dois resultados (digamos um binário, de modo que todas as observações com tenham resultado = 1 ), a probabilidade explode e as estimativas de probabilidade máxima correm para o infinito. glm
em R pode ou não lidar com isso terrivelmente bem, pois a mensagem de erro de previsão perfeita pode aparecer por outros motivos que não a previsão / separação perfeitas. logit
no Stata identifica essas variáveis e valores problemáticos e os descarta da análise.
Minha pergunta é diferente do que fazer se você tiver uma separação perfeita. Com o que posso lidar recodificando minhas variáveis (todas são categóricas, para que eu possa simplesmente combinar categorias) ou com a versão Firth da regressão logística, se quiser ser sofisticado.
Em vez disso, me pergunto quais são as maneiras comuns de descrever isso. Eu tenho um conjunto de dados com cerca de 100 pacientes com cerca de 50% de proporção "positiva", e algumas categorias das variáveis demográficas produzem essa previsão perfeita. Digamos que todas as sete pessoas de olhos verdes tenham um resultado "positivo". Essa pode ser uma pequena peculiaridade da amostra que desapareceria se eu tivesse um tamanho de amostra de 1000 e 70 pessoas de olhos verdes, mas pode ser clinicamente significativo, pois nessa amostra maior eu poderia ter 60 das 70 pessoas de olhos verdes que teriam um resultado "positivo" com altas taxas de chances.
Portanto, é bom dizer que usei um método bayesiano ou outro método de encolhimento, mas ao descrever como cheguei lá, eu precisaria admitir que tinha uma previsão / separação perfeita e precisava encontrar uma técnica mais sofisticada para obter resultados em todos. Qual seria uma boa linguagem para usar aqui?
fonte
Respostas:
Enquanto realizava minhas atividades de escavação em perguntas sem resposta, encontrei essa muito sensata, para a qual, acho, até agora o OP encontrou uma resposta.
Mas percebi que tinha várias perguntas próprias a respeito da questão da separação perfeita na regressão logística, e uma pesquisa (rápida) na literatura não parecia respondê-las. Por isso, decidi iniciar um pequeno projeto de pesquisa (provavelmente reinventando a roda) e, com essa resposta, gostaria de compartilhar alguns de seus resultados preliminares. Acredito que esses resultados contribuem para a compreensão de se a questão da separação perfeita é puramente "técnica" ou se pode ser dada uma descrição / explicação mais intuitiva.
Minha primeira preocupação foi entender o fenômeno em termos algorítmicos, e não a teoria geral por trás dele: sob quais condições a abordagem de estimativa de probabilidade máxima será "interrompida" se alimentada com uma amostra de dados que contenha um regressor para o qual o fenômeno de perfeita existe separação?
Os resultados preliminares (teóricos e simulados) indicam que:0 0
1) Importa se um termo constante está incluído na especificação do logit.
2) Importa se o regressor em questão é dicotômico (na amostra) ou não.
3) Se dicotômico, pode importar se o valor é ou não. 4) Importa se outros regressores estão presentes na especificação ou não. 5) Importa como as quatro questões acima são combinadas.
Apresento agora um conjunto de condições suficientes para uma separação perfeita para que o MLE se quebre. Isso não tem relação com o fato de os vários softwares estatísticos alertarem sobre o fenômeno - eles podem fazer isso varrendo a amostra de dados antes de tentar executar a estimativa de probabilidade máxima. Preocupo-me com os casos em que a estimativa da probabilidade máxima começará - e quando ela será interrompida no processo.
Suponha um modelo de regressão logística de escolha binária "usual"
é o regressor com separação perfeita, enquanto Z é uma coleção de outros regressores que não são caracterizados por separação perfeita. Além dissoX Z
A probabilidade de log para uma amostra de tamanho én
O MLE será encontrado definindo as derivadas iguais a zero. Em particular, queremos
A primeira equação vem de tomar a derivada em relação ao termo constante, a 2 de tomar a derivada em relação a .X
Suponha agora que em todos os casos em que temos x i = a k , e que x i nunca assume o valor a k quando y i = 0 . Este é o fenômeno da separação completa, ou "previsão perfeita": se observarmos x i = um k sabemos que y i = 1 . Se observarmos x i ≠ a k , sabemos que y i = 0y1= 1 xEu= ak xEu umak yEu= 0 xEu= ak yEu= 1 xEu≠ ak yEu= 0 . Isso vale independentemente de, em teoria ou na amostra , ser discreto ou contínuo, dicotômico ou não. Mas também, esse é um fenômeno específico da amostra - não argumentamos que ele se mantenha sobre a população. Mas a amostra específica é o que temos em nossas mãos para alimentar o MLE.X
Agora denote a frequência aboluta de por n yyEu= 1 ny
Podemos então reescrever a eq como( 1 )
Voltando à eq. nós temos( 2 )
usando temos n y a k + 0 - a k ∑ y i = 1 Λ i - ∑ y i = 0 Λ i x i = 0( 3 )
e usando obtemos( 4 )
Não estou dizendo que esse exemplo não crie consequências indesejáveis para as propriedades do estimador, etc: apenas observe que, nesse caso, o algoritmo de estimativa será executado normalmente.
fonte
glm