Regressão logística para multiclasse

10

Eu tenho o modelo para a regressão logística para multiclasse, que é dada por

P(Y=j|X(i))=exp(θjTX(i))1+m=1kexp(θmTX(i))

onde k é o número de classes teta é o parâmetro a ser estimado j é a j-ésima classe Xi são os dados de treinamento

Bem, uma coisa que não entendi é como a parte do denominador normalizou o modelo. Quero dizer, faz com que a probabilidade fique entre 0 e 1.

1+m=1kexp(θmTX(i))

Quero dizer, estou acostumado a regressão logística sendo

P(Y=1|X(i))=1/(1+exp(θTX(i)))

Na verdade, estou confuso com a coisa da nomalização. Nesse caso, como é uma função sigmóide, nunca permite que o valor seja menor que 0 ou maior que 1. Mas estou confuso no caso de várias classes. Por que é tão?

Esta é a minha referência https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html . Eu acho que deveria estar normalizando

P(Y=j|X(i))=exp(θjTX(i))m=1kexp(θmTX(i))
user34790
fonte
2
Dica: Na regressão logística, existem implicitamente duas probabilidades para lidar: a probabilidade e a probabilidade . Essas probabilidades devem somar . Y = 0 1Y=1Y=01
whuber
11
Com base em algumas de suas outras postagens, você sabe como marcar equações. As equações de texto aqui são difíceis de ler e os (subscritos?) São confusos - você pode marcá-las com ? LATEX
Macro
2
Como você está postando tantas perguntas aqui, faça uma pausa e leia nossas Perguntas frequentes sobre como fazer boas perguntas. Leia a ajuda da marcação para tornar suas equações legíveis. TEX
whuber
Editei a equação. @ Whuber Na verdade, estou confuso com relação à regressão logística multiclasse e não à binária. Estou preocupado como é que quando eu adicionar todos os elementos na donominator normalizados a probabilidade
user34790
@ user34790, quando você divide cada termo pela soma, as probabilidades de classes individuais somam 1. O que é , a propósito? X(i)
Macro

Respostas:

13

Sua fórmula está incorreta (o limite superior da soma). Na regressão logística com classes ( ), você basicamente cria modelos de regressão logística binária onde você escolhe uma classe como referência ou pivô. Normalmente, a última classe é selecionada como referência. Assim, a probabilidade da classe de referência pode ser calculada porA forma geral da probabilidade éComo a classe é a sua referência e, portanto,K > 2 K - 1 K P ( y i = K | x i ) = 1 - K - 1 k = 1 P ( y i = k | x i ) . P ( y i = k | x i ) = exp ( θ T i x i )KK>2K1K

P(yi=K|xi)=1k=1K1P(yi=k|xi).
KθK=(0,,0)TK i=1exp(θ T i xi)=exp(0)+ K - 1 i=1exp(θ T i xi)
P(yi=k|xi)=exp(θiTxi)i=1Kexp(θiTxi).
KθK=(0,,0)Tk < K P ( y i = k | x i ) = exp ( θ T i x i )
i=1Kexp(θiTxi)=exp(0)+i=1K1exp(θiTxi)=1+i=1K1exp(θiTxi).
No final, você obtém a seguinte fórmula para todos os : k<K
P(yi=k|xi)=exp(θiTxi)1+i=1K1exp(θiTxi)
sebp
fonte
4
observe que a escolha da classe de referência não é importante, se você estiver obtendo a máxima probabilidade. Porém, se você está fazendo a máxima verossimilhança penalizada ou inferência bayesiana, pode ser mais útil deixar as probabilidades super parametrizadas e deixar que a penalidade escolha uma maneira de lidar com a super parametrização. Isso ocorre porque a maioria das funções de penalidade / priores não são invariantes em relação à escolha de classe de referência
probabilityislogic
@ SEPP, parece que é um pouco confuso; seria melhor usar para observação e alguma outra letra para iteração de categoria . i kiik
garej 7/07
4

Acho que você está sendo confundido por um erro de digitação: seu deve ser na primeira equação. Os 1s que você vê no caso logístico são na verdade s, por exemplo, quando existe um th . k - 1 exp ( 0 ) k θ = 0kk1exp(0)kθ=0 0

Suponha que . Agora observe que você pode ir da última formulação à versão de regressão logística como Para várias classes, basta substituir o denominador nas duas primeiras quantidades por uma soma sobre os preditores lineares exponenciados. exp ( b )θ1 1X=b

exp(b)exp(0 0)+exp(b)=exp(0 0)exp(0 0)+exp(-b)=1 11 1+exp(-b)
conjugado
fonte