A probabilidade de log no GLM garantiu convergência para os máximos globais?

16

Minhas perguntas são:

  1. Os modelos lineares generalizados (GLMs) garantem convergir para um máximo global? Se sim, por quê?
  2. Além disso, que restrições existem na função de link para garantir a convexidade?

Meu entendimento dos GLMs é que eles maximizam uma função de probabilidade altamente não-linear. Assim, eu imaginaria que existem vários máximos locais e o conjunto de parâmetros para os quais você converge depende das condições iniciais do algoritmo de otimização. No entanto, depois de fazer algumas pesquisas, não encontrei uma única fonte que indique que existem vários máximos locais. Além disso, não conheço muito as técnicas de otimização, mas sei que o método Newton-Raphson e o algoritmo IRLS são altamente propensos a máximos locais.

Por favor, explique, se possível, de forma intuitiva e matemática!

EDIT: dksahuji respondeu à minha pergunta original, mas quero adicionar a pergunta de acompanhamento [ 2 ] acima. ("Que restrições existem na função de link para garantir a convexidade?")

DankMasterDan
fonte
Eu acho que algumas restrições devem ser necessárias antes que isso possa acontecer. Qual é a fonte da declaração?
Glen_b -Reinstala Monica
Vários sites pareciam implicá-lo, no entanto, eu não consegui encontrar nada que o mencionasse imediatamente, então eu também aprecio sua reprovação!
DankMasterDan
contanto que a probabilidade esteja bem definida em todos os lugares do domínio (e ignorando alguns problemas numéricos tangenciais), acho que sim. Nessas condições, o hessian está <0 em todo lugar no domínio, portanto a similaridade é globalmente côncava. Btw, a função não é 'altamente não linear' nos parâmetros e é isso que importa.
user603
@ user603 qual é a sua fonte / prova de que o hessian está <0 em todo lugar?
DankMasterDan
As regressões logística, Poisson e Gaussiana são frequentemente convexas, dada uma função de ligação "boa". No entanto, com a função de link arbitrário, eles não são convexos.
Memming

Respostas:

11

A definição de família exponencial é:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

onde é a função da partição de log. Agora, pode-se provar que as três coisas a seguir se aplicam ao caso 1D (e elas generalizam para dimensões mais altas - você pode examinar as propriedades de famílias exponenciais ou partição de log):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

O resultado acima prova que é convexo (como c o v ( ϕ ( x ) ) é positivo semidefinido). Agora, vamos dar uma olhada na função de probabilidade do MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

θT[ϕ(D)]A(θ)

Existe uma versão generalizada chamada família exponencial curvada que também seria semelhante. Mas a maioria das provas está na forma canônica.

dksahuji
fonte
Então, isso significa que o GLM possui um mínimo global mínimo de diferença, cuja função de link é escolhida (incluindo as não-canônicas)?
DankMasterDan
11
Vou tentar responder o mais longe possível. p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ))) is the case you are talking about. This still is concave in η but may not be in θ so η should be such that the whole log likelihood is concave in θ.
dksahuji
Observe que a pergunta se refere à convergência, e não apenas à existência, mas com algumas restrições, isso também pode ser possível.
Glen_b -Replica Monica
@Glen_b Você pode elaborar? Não conheço nenhuma dessas restrições. Talvez algo como restrições no tamanho da etapa em um otimizador baseado em gradiente para garantir a convergência em caso de função côncava.
dksahuji
11
@ Glen_b Isso pode ser verdade em geral, mas não consigo ver nenhuma razão para a função côncava não convergir para ótimos dentro de um pequeno valor tolerável. Mas eu diria que não tenho nenhuma experiência prática com isso e acabei de começar. :)
dksahuji