Tome e e suponha que modelar a tarefa de prever y dado x meio de regressão logística. Quando os coeficientes de regressão logística podem ser escritos de forma fechada?
Um exemplo é quando usamos um modelo saturado.
Isto é, definir , onde indexa conjuntos no poder-conjunto de , e retorna 1 se todas as variáveis do ésimo conjunto forem 1 e 0, caso contrário. Depois, você pode expressar cada neste modelo de regressão logística como um logaritmo de uma função racional de estatísticas dos dados.
Existem outros exemplos interessantes quando existe um formulário fechado?
logistic
generalized-linear-model
Yaroslav Bulatov
fonte
fonte
Respostas:
Como kjetil b halvorsen apontou, é, a seu modo, um milagre que a regressão linear admita uma solução analítica. E isso ocorre apenas em virtude da linearidade do problema (com relação aos parâmetros). Em OLS, tem que tem condições de primeira ordem - 2 Σ i ( y i - x ' i β ) x i = 0 Para um problema com p
Agora, com a regressão logística, as coisas não são mais tão fáceis. Escrever a função de probabilidade logarítmica, e tomando sua derivada para encontrar o MLE, obtemos ∂ l
Uma análise um pouco mais profunda do problema (usando a segunda derivada) revela que este é um problema de otimização convexa de encontrar o máximo de uma função côncava (uma parábola multivariada glorificada), de modo que qualquer uma delas exista, e qualquer algoritmo razoável deve encontrá-la rapidamente, ou as coisas explodem até o infinito. Este último ocorre com regressão logística quando para alguns cProb[Yi=1|x′iβ>c]=1 c , ou seja, você tem uma previsão perfeita. Esse é um artefato bastante desagradável: você pensaria que, quando tem uma previsão perfeita, o modelo funciona perfeitamente, mas, curiosamente, é o contrário.
fonte
Esta postagem foi originalmente planejada como um comentário longo e não como uma resposta completa para a pergunta em questão.
Da questão, é um pouco incerto se o interesse reside apenas no caso binário ou, talvez, em casos mais gerais, onde eles podem ser contínuos ou assumir outros valores discretos.
Para interpretar isso, imagine um torneio round-robin completo no seu esporte competitivo favorito. Então, esse resultado diz que o modelo Bradley – Terry classifica os jogadores / equipes de acordo com a porcentagem de vitórias. Se este é um resultado encorajador ou decepcionante depende do seu ponto de vista, suponho.
Nota: este resultado de classificação não se aplica, em geral, quando um round-robin completo não é jogado.
fonte