Antecedentes: Estou estudando o capítulo 6 do Deep Learning de Ian Goodfellow e Yoshua Bengio e Aaron Courville. Na seção 6.2.2.2 (páginas 182 de 183, que pode ser vista aqui ), é motivado o uso de sigmóide na saída .
Para resumir alguns dos materiais que deixe ser um neurónio de saída antes de uma activação é aplicado, onde h é a saída da camada oculta anterior, W é um vector de pesos e b é um viés escalar. O vetor de entrada é denotado x (do qual h é uma função) e o valor de saída é denotado y = ϕ ( z ) onde ϕ é a função sigmóide. O livro deseja definir uma distribuição de probabilidade sobre y usando o valor z
Nós omitimos a dependência de no momento para discutir como definir uma distribuição de probabilidade sobre y usando o valor z . O sigmóide pode ser motivado através da construção de uma distribuição de probabilidade não normalizada ˜ P ( y ) , que não soma 1. Podemos então dividir por uma constante apropriada para obter uma distribuição de probabilidade válida. Se começarmos com a suposição de que as probabilidades log não-normalizadas são lineares em y e z , podemos exponenciar para obter as probabilidades não-normalizadas. Em seguida, normalizamos para ver que isso gera uma distribuição de Bernoulli controlada por uma transformação sigmoidal de z: log ˜
Perguntas: Estou confuso sobre duas coisas, principalmente a primeira:
- De onde vem a suposição inicial? Por que a probabilidade log não normalizada é linear em e z ? Alguém pode me dar alguma inituition sobre como os autores iniciados com log ~ P ( y ) = y z ?
- Como segue a última linha?
Também acho difícil seguir este fragmento do livro, e a resposta acima de itdxer merece algum tempo para ser compreendida também por alguém que não seja fluente com probabilidades e raciocínio matemático. No entanto, consegui ler a resposta ao contrário, então comece com o sigmóide de z
e tente seguir de volta para.
Então faz sentido porque eles começaram a explicação com yz - é por design, o mesmo que o final
por construção permite obter -1 para y = 0 e 1 para y = 1, que são os únicos valores possíveis de y sob o Bernoulli.
fonte
Aqui está um fraseado mais formal que irá agradar àqueles com formação teórica em medidas.
Temos a seguinte cadeia de implicações:
fonte