Esta pergunta segue em stats.stackexchange.com/q/233658
O modelo de regressão logística para as classes {0, 1} é
Claramente, essas probabilidades somam 1. Ao definir , também poderíamos definir regressão logística como
No entanto, a segunda definição raramente é usada porque os coeficientes e não são exclusivos. Em outras palavras, o modelo não é identificável, assim como a regressão linear com duas variáveis que são múltiplas uma da outra.
Questão
No aprendizado de máquina, por que o modelo de regressão softmax para as classes {0, 1, ..., K - 1} geralmente é definido da seguinte maneira?
Não deveria ser
Nota lateral: Nas estatísticas, a regressão softmax é chamada de regressão logística multinomial e as classes são {1, ..., K}. Acho isso um pouco estranho, porque quando K = 2, as classes são {1, 2} em vez de {0, 1}, portanto, não é exatamente uma generalização da regressão logística.
Respostas:
Sim, você está certo de que há uma falta de identificação, a menos que um dos vetores coeficientes seja corrigido. Existem algumas razões que não mencionam isso. Não sei explicar por que eles omitem esse detalhe, mas aqui está uma explicação do que é e como corrigi-lo.
Descrição
Digamos que você tenha observações e preditores , onde vou de a denota o número / índice da observação. Você vai precisar de estimar dimensional coeficiente de vetores .yi∈{0,1,2,…,K−1} x⊺i∈Rp i 1 n K p β0,β1,…,βK−1
A função softmax é realmente definida como que possui boas propriedades, como diferenciabilidade, soma , etc.softmax(z)i=exp(zi)∑K−1l=0exp(zl), 1
A regressão logística multinomial usa a função softmax para cada observação no vetori ⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
que significa⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
O problema
No entanto, a probabilidade não é identificável porque várias coleções de parâmetros fornecerão a mesma probabilidade. Por exemplo, mudar todos os vetores de coeficiente pelo mesmo vetor produzirá a mesma probabilidade. Isso pode ser visto se você multiplicar cada numerador e denominador de cada elemento do vetor por uma constante , nada muda:c exp[−x⊺ic]
Consertando-o
A maneira de corrigir isso é restringir os parâmetros. A correção de um deles levará à identificabilidade, porque a mudança de todos eles não será mais permitida.
Existem duas opções comuns:
Ignorando
Às vezes, a restrição não é necessária. Por exemplo, se você estava interessado em formar um intervalo de confiança para a quantidade , então é o mesmo que . relativamente quantidades realmente não importa. Além disso, se sua tarefa for previsão em vez de inferência de parâmetros, suas previsões não serão afetadas se todos os vetores de coeficiente forem estimados (sem restringir um).β01−β21 β01−c−[β21−c]
fonte