Eu tenho usado a função glm.fit em R para ajustar parâmetros a um modelo de regressão logística. Por padrão, o glm.fit usa mínimos quadrados ponderados iterativamente para ajustar os parâmetros. Quais são algumas das razões pelas quais esse algoritmo falharia ao convergir quando usado para regressão logística?
8
Respostas:
Caso as duas classes sejam separáveis, o IRLS (IQM) com pesos repetidos iterativamente seria quebrado. Nesse cenário, qualquer hiperplano que separa as duas classes é uma solução e existem infinitamente muitas delas. O IRLS destina-se a encontrar uma solução de máxima probabilidade. A probabilidade máxima não possui um mecanismo para favorecer nenhuma dessas soluções em detrimento da outra (por exemplo, nenhum conceito de margem máxima). Dependendo da inicialização, o IRLS deve ir em direção a uma dessas soluções e interromper devido a problemas numéricos (não conheça os detalhes do IRLS; um palpite).
Outro problema surge no caso de separabilidade linear dos dados de treinamento. Qualquer uma das soluções do hiperplano corresponde a uma função heaviside. Portanto, todas as probabilidades são 0 ou 1. A solução de regressão linear seria um classificador rígido, e não um classificador probabilístico.
fonte
Além da separação linear (na qual o MLE está no limite do espaço de parâmetro), o procedimento de Fisher Scoring em R não é completamente numericamente estável. São necessárias etapas de tamanho fixo, que em certos casos patológicos podem levar à não convergência (quando o verdadeiro MLE é de fato um ponto interior).
Por exemplo,
produz um coeficiente de em vez do logit esperado .2 × 1015 ( 3 / 4 ) ≈ 1,0986
O pacote CRAN glm2 fornece uma substituição imediata
glm.fit
que ajusta o tamanho da etapa para garantir convergência monótona.fonte