Minhas perguntas são:
- Os modelos lineares generalizados (GLMs) garantem convergir para um máximo global? Se sim, por quê?
- Além disso, que restrições existem na função de link para garantir a convexidade?
Meu entendimento dos GLMs é que eles maximizam uma função de probabilidade altamente não-linear. Assim, eu imaginaria que existem vários máximos locais e o conjunto de parâmetros para os quais você converge depende das condições iniciais do algoritmo de otimização. No entanto, depois de fazer algumas pesquisas, não encontrei uma única fonte que indique que existem vários máximos locais. Além disso, não conheço muito as técnicas de otimização, mas sei que o método Newton-Raphson e o algoritmo IRLS são altamente propensos a máximos locais.
Por favor, explique, se possível, de forma intuitiva e matemática!
EDIT: dksahuji respondeu à minha pergunta original, mas quero adicionar a pergunta de acompanhamento [ 2 ] acima. ("Que restrições existem na função de link para garantir a convexidade?")
fonte
Respostas:
A definição de família exponencial é:
onde é a função da partição de log. Agora, pode-se provar que as três coisas a seguir se aplicam ao caso 1D (e elas generalizam para dimensões mais altas - você pode examinar as propriedades de famílias exponenciais ou partição de log):A(θ)
O resultado acima prova que é convexo (como c o v ( ϕ ( x ) ) é positivo semidefinido). Agora, vamos dar uma olhada na função de probabilidade do MLE:A(θ) cov(ϕ(x))
Existe uma versão generalizada chamada família exponencial curvada que também seria semelhante. Mas a maioria das provas está na forma canônica.
fonte