Onde posso encontrar uma boa prova de que os modelos baseados em CRF e os modelos baseados em regressão logística são convexos? Existe um truque geral para testar / provar que um modelo ou função objetiva é convexa?
fonte
Onde posso encontrar uma boa prova de que os modelos baseados em CRF e os modelos baseados em regressão logística são convexos? Existe um truque geral para testar / provar que um modelo ou função objetiva é convexa?
Um truque é reescrever funções objetivas em termos de funções que são conhecidas por serem convexas.
A função objetiva do modelo log-linear treinado para ML é uma soma das probabilidades logarítmicas negativas; portanto, é suficiente mostrar que a probabilidade logarítmica negativa para cada ponto de dados é convexa.
Considerando o ponto de dados fixo, podemos escrever seu termo de probabilidade logarítmica negativo como
O primeiro termo é linear, portanto, é suficiente mostrar que o segundo termo, conhecido como normalizador de log, é convexo.
Não consegui encontrar a prova completa da equivalência, geralmente as pessoas a omitem porque são apenas várias etapas da álgebra pouco inspiradora. Uma derivação muito concisa do espaço de saída contínuo está na página 5 da tese de "Modelos gráficos" da Xinhua Zhang . Eu acredito que vi uma derivação completa nos "Fundamentos das famílias exponenciais estatísticas" de Lawrence D. Brown
Primeiro, a convexidade não é apenas um recurso de uma função, mas uma função e o domínio sobre o qual é definida.
Para abordar sua pergunta mais diretamente, outro truque (outra formulação) é calcular a matriz hessiana de sua função de probabilidade. Uma função por wiki de uma função contínua, duas vezes diferenciável de várias variáveis é convexa em um conjunto convexo se e somente se sua matriz Hessiana for semidefinida positiva no interior do conjunto convexo .
Como o Hessiano é simétrico real, basta ter domínio diagonal para ser PSD (isso é óbvio para mostrar no modelo logístico).