Quais são algumas das razões pelas quais os mínimos quadrados com ponderação iterativa não convergiriam quando usados ​​para regressão logística?

8

Eu tenho usado a função glm.fit em R para ajustar parâmetros a um modelo de regressão logística. Por padrão, o glm.fit usa mínimos quadrados ponderados iterativamente para ajustar os parâmetros. Quais são algumas das razões pelas quais esse algoritmo falharia ao convergir quando usado para regressão logística?

Jessica
fonte
2
Não sei como julgar o "mais comum", pois o que é comum para as pessoas que trabalham em uma área pode ser incomum para outra. [Uma razão (de muitas possíveis) pode ser a separação completa - onde, ao longo de uma combinação linear de preditores, todos os 0s estão acima ou abaixo de todos os 1s. Às vezes, você pode ver quando isso acontece, porque pelo menos um parâmetro tende a se aproximar do infinito.]
Glen_b -Reinstata Monica
@ Glen_b: Obrigado pelo seu comentário, vou mudar para "algumas razões".
Jessica Jessica

Respostas:

14

Caso as duas classes sejam separáveis, o IRLS (IQM) com pesos repetidos iterativamente seria quebrado. Nesse cenário, qualquer hiperplano que separa as duas classes é uma solução e existem infinitamente muitas delas. O IRLS destina-se a encontrar uma solução de máxima probabilidade. A probabilidade máxima não possui um mecanismo para favorecer nenhuma dessas soluções em detrimento da outra (por exemplo, nenhum conceito de margem máxima). Dependendo da inicialização, o IRLS deve ir em direção a uma dessas soluções e interromper devido a problemas numéricos (não conheça os detalhes do IRLS; um palpite).

Outro problema surge no caso de separabilidade linear dos dados de treinamento. Qualquer uma das soluções do hiperplano corresponde a uma função heaviside. Portanto, todas as probabilidades são 0 ou 1. A solução de regressão linear seria um classificador rígido, e não um classificador probabilístico.

lim|W|σ(WTx+b)σ(W,b)W

Seeda
fonte
7

Além da separação linear (na qual o MLE está no limite do espaço de parâmetro), o procedimento de Fisher Scoring em R não é completamente numericamente estável. São necessárias etapas de tamanho fixo, que em certos casos patológicos podem levar à não convergência (quando o verdadeiro MLE é de fato um ponto interior).

Por exemplo,

y <- c(1,1,1,0)
x <- rep(1,4)
fit1 <- glm.fit(x,y, family=binomial(link="logit"),start=-1.81)

produz um coeficiente de em vez do logit esperado .2×1015(3/4)1.0986

O pacote CRAN glm2 fornece uma substituição imediataglm.fit que ajusta o tamanho da etapa para garantir convergência monótona.

Andrew M
fonte