Como descrever e apresentar a questão da separação perfeita?

8

As pessoas que trabalham com regressão logística estão familiarizadas com a questão da separação perfeita: se você tiver uma variável com valores específicos associados a apenas um dos dois resultados (digamos um binário, de xmodo que todas as observações com x=1 tenham resultado = 1 ), a probabilidade explode e as estimativas de probabilidade máxima correm para o infinito. glmem R pode ou não lidar com isso terrivelmente bem, pois a mensagem de erro de previsão perfeita pode aparecer por outros motivos que não a previsão / separação perfeitas. logitno Stata identifica essas variáveis ​​e valores problemáticos e os descarta da análise.

Minha pergunta é diferente do que fazer se você tiver uma separação perfeita. Com o que posso lidar recodificando minhas variáveis ​​(todas são categóricas, para que eu possa simplesmente combinar categorias) ou com a versão Firth da regressão logística, se quiser ser sofisticado.

Em vez disso, me pergunto quais são as maneiras comuns de descrever isso. Eu tenho um conjunto de dados com cerca de 100 pacientes com cerca de 50% de proporção "positiva", e algumas categorias das variáveis ​​demográficas produzem essa previsão perfeita. Digamos que todas as sete pessoas de olhos verdes tenham um resultado "positivo". Essa pode ser uma pequena peculiaridade da amostra que desapareceria se eu tivesse um tamanho de amostra de 1000 e 70 pessoas de olhos verdes, mas pode ser clinicamente significativo, pois nessa amostra maior eu poderia ter 60 das 70 pessoas de olhos verdes que teriam um resultado "positivo" com altas taxas de chances.

Portanto, é bom dizer que usei um método bayesiano ou outro método de encolhimento, mas ao descrever como cheguei lá, eu precisaria admitir que tinha uma previsão / separação perfeita e precisava encontrar uma técnica mais sofisticada para obter resultados em todos. Qual seria uma boa linguagem para usar aqui?

StasK
fonte

Respostas:

3

Enquanto realizava minhas atividades de escavação em perguntas sem resposta, encontrei essa muito sensata, para a qual, acho, até agora o OP encontrou uma resposta.
Mas percebi que tinha várias perguntas próprias a respeito da questão da separação perfeita na regressão logística, e uma pesquisa (rápida) na literatura não parecia respondê-las. Por isso, decidi iniciar um pequeno projeto de pesquisa (provavelmente reinventando a roda) e, com essa resposta, gostaria de compartilhar alguns de seus resultados preliminares. Acredito que esses resultados contribuem para a compreensão de se a questão da separação perfeita é puramente "técnica" ou se pode ser dada uma descrição / explicação mais intuitiva.

Minha primeira preocupação foi entender o fenômeno em termos algorítmicos, e não a teoria geral por trás dele: sob quais condições a abordagem de estimativa de probabilidade máxima será "interrompida" se alimentada com uma amostra de dados que contenha um regressor para o qual o fenômeno de perfeita existe separação?

Os resultados preliminares (teóricos e simulados) indicam que:
1) Importa se um termo constante está incluído na especificação do logit.
2) Importa se o regressor em questão é dicotômico (na amostra) ou não.
3) Se dicotômico, pode importar se o valor é ou não. 4) Importa se outros regressores estão presentes na especificação ou não. 5) Importa como as quatro questões acima são combinadas. 0

Apresento agora um conjunto de condições suficientes para uma separação perfeita para que o MLE se quebre. Isso não tem relação com o fato de os vários softwares estatísticos alertarem sobre o fenômeno - eles podem fazer isso varrendo a amostra de dados antes de tentar executar a estimativa de probabilidade máxima. Preocupo-me com os casos em que a estimativa da probabilidade máxima começará - e quando ela será interrompida no processo.

Suponha um modelo de regressão logística de escolha binária "usual"

P(Yiβ0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+ziγ

é o regressor com separação perfeita, enquanto Z é uma coleção de outros regressores que não são caracterizados por separação perfeita. Além dissoXZ

Λ(g(β0,xi,zi))=11+eg(β0,xi,zi)Λi

A probabilidade de log para uma amostra de tamanho én

lnL=i=1n[yiln(Λi)+(1yi)ln(1Λi)]

O MLE será encontrado definindo as derivadas iguais a zero. Em particular, queremos

(1)i=1n(yiΛi)=0

(2)i=1n(yiΛi)xi=0

A primeira equação vem de tomar a derivada em relação ao termo constante, a 2 de tomar a derivada em relação a .X

Suponha agora que em todos os casos em que temos x i = a k , e que x i nunca assume o valor a k quando y i = 0 . Este é o fenômeno da separação completa, ou "previsão perfeita": se observarmos x i = um k sabemos que y i = 1 . Se observarmos x ia k , sabemos que y i = 0y1=1xi=akxiakyi=0xi=akyi=1xiakyi=0. Isso vale independentemente de, em teoria ou na amostra , ser discreto ou contínuo, dicotômico ou não. Mas também, esse é um fenômeno específico da amostra - não argumentamos que ele se mantenha sobre a população. Mas a amostra específica é o que temos em nossas mãos para alimentar o MLE.X

Agora denote a frequência aboluta de por n yyi=1ny

(3)nyi=1nyi=yi=1yi

Podemos então reescrever a eq como(1)

(4)ny=i=1nΛi=yi=1Λi+yi=0Λinyyi=1Λi=yi=0Λi

Voltando à eq. nós temos(2)

i=1nyixii=1nΛixi=0yi=1yiak+yi=0yixiyi=1Λiakyi=0Λixi=0

usando temos n y a k + 0 - a k y i = 1 Λ i - y i = 0 Λ i x i = 0(3)

nyak+0akyi=1Λiyi=0Λixi=0

ak(nyyi=1Λi)yi=0Λixi=0

e usando obtemos(4)

(5)akyi=0Λixiyi=0Λixi=0yi=0(akxi)Λi=0

X(5)

yi=0xiak
X(akxi)0i(5)
Xak(akxi)0i(5)

Λi(5)Λi=0i

Λi=11+eg(β0,xi,zi)

Λi0g(β0,xi,zi)g()

Xak(5)(akxi)(5)

Não estou dizendo que esse exemplo não crie consequências indesejáveis ​​para as propriedades do estimador, etc: apenas observe que, nesse caso, o algoritmo de estimativa será executado normalmente.

Xak(1)

Alecos Papadopoulos
fonte
g()±xi>aYi=1xiaYi=0, digamos, em vez de uma igualdade exata para um determinado valor.
StasK
ak
O ML não funciona quando as condições de regularidade são violadas. Veja, por exemplo, isso .
StasK
1
Eu concordo com você. Minha postagem não discute o contrário. O que eu tentei fazer foi "prever" quando a implementação real do algoritmo MLE , através da tentativa de satisfazer as condições usuais, se decompõe numericamente sob perfeita separação e quando não. Mas meu post não discute a utilidade / significância das estimativas reais que obteremos, no caso em que o algoritmo MLE fornece resultados, e escrevi isso claramente em meu post. Vejo meus exemplos como um aviso: "cuidado - mesmo que exista uma separação perfeita, não confie no algoritmo MLE para informar".
Alecos Papadopoulos
108glm