Entropia cruzada ou probabilidade de log na camada de saída

31

Eu li esta página: http://neuralnetworksanddeeplearning.com/chap3.html

e disse que a camada de saída sigmóide com entropia cruzada é bastante semelhante à camada de saída softmax com probabilidade logarítmica.

o que acontece se eu usar sigmoid com probabilidade de log ou softmax com entropia cruzada na camada de saída? Está bom? porque vejo que há pouca diferença na equação entre entropia cruzada (eq.57):

C=1nx(ylna+(1y)ln(1a))

e probabilidade de log (eq.80):

C=1nx(lnayL)
Malioboro
fonte

Respostas:

51

A probabilidade logarítmica negativa (eq.80) também é conhecida como entropia cruzada em várias classes (ref: Reconhecimento de padrões e aprendizado de máquina, seção 4.3.4), pois são de fato duas interpretações diferentes da mesma fórmula.

eq.57 é a probabilidade logarítmica negativa da distribuição de Bernoulli, enquanto que a eq.80 é a probabilidade logarítmica negativa da distribuição multinomial com uma observação (uma versão multiclasse de Bernoulli).

Para problemas de classificação binária, a função softmax gera dois valores (entre 0 e 1 e soma a 1) para fornecer a previsão de cada classe. Enquanto a função sigmóide gera um valor (entre 0 e 1) para fornecer a previsão de uma classe (a outra classe é 1-p).

Portanto, a eq.80 não pode ser aplicada diretamente à saída sigmóide, embora seja essencialmente a mesma perda que a eq.57.

Veja também esta resposta .


A seguir, é apresentada uma ilustração simples da conexão entre (sigmoide + entropia cruzada binária) e (softmax + entropia cruzada multiclasse) para problemas de classificação binária.

0.5

σ(wx+b)=0.5
wx+b=0

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

A seguir, são apresentados os limites de decisão obtidos usando esses dois métodos, que são quase idênticos.

dontloo
fonte
A quais equações você está se referindo? No livro, as equações são numeradas de maneira diferente. Talvez seja uma edição específica do livro? Você pode esclarecer isso? Estou vendo o livro em users.isr.ist.utl.pt/~wurmd/Livros/school/… , página 209 (seção 4.3.4).
nbro 25/10
@ Nbro ah desculpe pela confusão, eu quis dizer as equações na página vinculada dada na pergunta.
dontloo 17/11