Quando a regressão logística é resolvida de forma fechada?

31

Tome x{0,1}d e y{0,1} e suponha que modelar a tarefa de prever y dado x meio de regressão logística. Quando os coeficientes de regressão logística podem ser escritos de forma fechada?

Um exemplo é quando usamos um modelo saturado.

Isto é, definir P(y|x)exp(iwifi(xi)) , onde i indexa conjuntos no poder-conjunto de {x1,,xd} , e fi retorna 1 se todas as variáveis ​​do i ésimo conjunto forem 1 e 0, caso contrário. Depois, você pode expressar cada wi neste modelo de regressão logística como um logaritmo de uma função racional de estatísticas dos dados.

Existem outros exemplos interessantes quando existe um formulário fechado?

Yaroslav Bulatov
fonte
4
Eu suponho que você quer dizer "quando os MLEs dos parâmetros estão na forma fechada?"
Glen_b -Reinstate Monica
Você pode dar mais detalhes do que fez? Sua pergunta é como se você tentasse derivar o estimador de mínimos quadrados ordinário para um problema de regressão logística?
Momo
1
Obrigado pelo interessante post / pergunta, Yaroslav. Você tem uma referência para o exemplo que você mostra?
Bitwise
1
Já faz um tempo, mas possivelmente estava no livro "Modelos Gráficos" de Lauritzen. As bases mais amplas da resposta para esta pergunta está lá - você começa solução fechada quando o (hiper) gráfico formado por estatísticas suficientes é cordal
Yaroslav Bulatov
Isso pode ser interessante tandfonline.com/doi/abs/10.1080/... Eu acredito que este é um caso especial de uma solução analítica quando você só tem uma tabela 2x2
Austin

Respostas:

33

Como kjetil b halvorsen apontou, é, a seu modo, um milagre que a regressão linear admita uma solução analítica. E isso ocorre apenas em virtude da linearidade do problema (com relação aos parâmetros). Em OLS, tem que tem condições de primeira ordem - 2 Σ i ( y i - x ' i β ) x i = 0 Para um problema com p

i(yixiβ)2minβ,
2i(yixiβ)xi=0
pvariáveis (incluindo constante, se necessário, há alguns regressão com os problemas de origem, também), este é um sistema com equações e p incógnitas. Mais importante ainda, é um sistema linear, para que você possa encontrar uma solução usando a teoria e prática padrão da álgebra linear . Este sistema terá uma solução com probabilidade 1, a menos que você tenha variáveis ​​perfeitamente colineares.pp

Agora, com a regressão logística, as coisas não são mais tão fáceis. Escrever a função de probabilidade logarítmica, e tomando sua derivada para encontrar o MLE, obtemos l

l(y;x,β)=iyilnpi+(1yi)ln(1pi),pi=(1+exp(θi))1,θi=xiβ,
Os parâmetrosβinserem isso de maneira muito não-linear: para cadai, há uma função não-linear e eles são somados. Não há solução analítica (exceto provavelmente em uma situação trivial com duas observações, ou algo assim), e você deve usarmétodos de otimização não linearpara encontrar as estimativas
lβ=idpidθ(yipi1yi1pi)xi=i[yi11+exp(xiβ)]xi
βi .β^

Uma análise um pouco mais profunda do problema (usando a segunda derivada) revela que este é um problema de otimização convexa de encontrar o máximo de uma função côncava (uma parábola multivariada glorificada), de modo que qualquer uma delas exista, e qualquer algoritmo razoável deve encontrá-la rapidamente, ou as coisas explodem até o infinito. Este último ocorre com regressão logística quando para alguns cProb[Yi=1|xiβ>c]=1c, ou seja, você tem uma previsão perfeita. Esse é um artefato bastante desagradável: você pensaria que, quando tem uma previsão perfeita, o modelo funciona perfeitamente, mas, curiosamente, é o contrário.

StasK
fonte
a questão é por que sua última equação não é solucionável. é devido ao inverso da função logística divergir em 0 e 1, ou é devido à não linearidade em geral?
eyaler
5
(+1) Quanto à sua último parágrafo: Do ponto de vista matemático que faz o trabalho "perfeitamente" no sentido de que um MLE vai render um hiperplano de separação perfeita. Se o seu algoritmo numérico se comporta de maneira sensata nessa circunstância é uma questão separada. A suavização de Laplace é frequentemente usada nessas situações.
cardeal
@eyaler, eu diria que isso se deve à não linearidade em geral. Meu entendimento é que há um conjunto limitado de circunstâncias em que isso pode ser resolvido, embora eu não saiba quais são essas circunstâncias.
Stask
1
Não entendo, que condição matemática está presente que faz com que o sistema não tenha uma solução de formulário fechado? Existe uma condição geral em que as coisas em geral não têm soluções fechadas?
Charlie Parker
o fato de a regressão logística não ter uma forma fechada é algo que se pode provar observando a iteração de gradiente descendente?
Charlie Parker
8

Esta postagem foi originalmente planejada como um comentário longo e não como uma resposta completa para a pergunta em questão.

Da questão, é um pouco incerto se o interesse reside apenas no caso binário ou, talvez, em casos mais gerais, onde eles podem ser contínuos ou assumir outros valores discretos.

logit(Pr(Yij=1))=αiαj,
αiiYij=1i foi preferido sobre o itemj em uma comparação emparelhada.

(i,j)α^iSi=jiYij

Para interpretar isso, imagine um torneio round-robin completo no seu esporte competitivo favorito. Então, esse resultado diz que o modelo Bradley – Terry classifica os jogadores / equipes de acordo com a porcentagem de vitórias. Se este é um resultado encorajador ou decepcionante depende do seu ponto de vista, suponho.

Nota: este resultado de classificação não se aplica, em geral, quando um round-robin completo não é jogado.

cardeal
fonte
2
Eu estava interessado em binário porque era mais fácil de analisar. Eu encontrei uma condição muito ampla suficiente em obras de Lauritzen - você começa forma fechada se um modelo log-linear correspondente é decomposable
Yaroslav Bulatov