Motivando unidades de saída sigmóide em redes neurais começando com probabilidades de log linear não normalizadas em

12

Antecedentes: Estou estudando o capítulo 6 do Deep Learning de Ian Goodfellow e Yoshua Bengio e Aaron Courville. Na seção 6.2.2.2 (páginas 182 de 183, que pode ser vista aqui ), é motivado o uso de sigmóide na saída .P(y=1|x)

Para resumir alguns dos materiais que deixe ser um neurónio de saída antes de uma activação é aplicado, onde h é a saída da camada oculta anterior, W é um vector de pesos e b é um viés escalar. O vetor de entrada é denotado x (do qual h é uma função) e o valor de saída é denotado y = ϕ ( z ) onde ϕ é a função sigmóide. O livro deseja definir uma distribuição de probabilidade sobre y usando o valor z

z=wTh+b
hwbxhy=ϕ(z)ϕyz. No segundo parágrafo da página 183:

Nós omitimos a dependência de no momento para discutir como definir uma distribuição de probabilidade sobre y usando o valor z . O sigmóide pode ser motivado através da construção de uma distribuição de probabilidade não normalizada ˜ P ( y ) , que não soma 1. Podemos então dividir por uma constante apropriada para obter uma distribuição de probabilidade válida. Se começarmos com a suposição de que as probabilidades log não-normalizadas são lineares em y e z , podemos exponenciar para obter as probabilidades não-normalizadas. Em seguida, normalizamos para ver que isso gera uma distribuição de Bernoulli controlada por uma transformação sigmoidal de z: log ˜xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Perguntas: Estou confuso sobre duas coisas, principalmente a primeira:

  1. De onde vem a suposição inicial? Por que a probabilidade log não normalizada é linear em e z ? Alguém pode me dar alguma inituition sobre como os autores iniciados com log ~ P ( y ) = y z ?yzlogP~(y)=yz
  2. Como segue a última linha?
HBeel
fonte

Respostas:

8

Existem dois resultados possíveis para . É muito importante, porque essa propriedade altera o significado da multiplicação. Há duas possibilidades:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Além disso, é importante notar que a probabilidade logarítmica não normalizada para é constante. Essa propriedade deriva da suposição principal. A aplicação de qualquer função determinística ao valor constante produzirá uma saída constante. Essa propriedade simplificará a fórmula final quando realizaremos a normalização em todas as probabilidades possíveis, porque precisamos conhecer apenas a probabilidade não normalizada para y = 1 e para y = 0 sempre é constante. E, como a saída da rede tem uma probabilidade logarítmica não normalizada, exigiremos apenas uma saída, porque outra assumida como constante.y=0y=1y=0

Em seguida, aplicamos exponenciação à probabilidade de logaritmo não normalizado para obter uma probabilidade não normalizada.

P~(y=1)=ezP~(y=0)=e0=1

Em seguida, apenas normalizamos as probabilidades, dividindo cada probabilidade não normalizada pela soma de todas as probabilidades possíveis não normalizadas.

P(y=1)=ez1+ezP(y=0)=11+ez

P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

σP(y)

itdxer
fonte
y=0y=1
y=1
y×zyzay+bz+clogyz
Entendo, essa é realmente uma pergunta interessante. Não prestei atenção a essa afirmação quando li a pergunta pela primeira vez. Agora parece estranho para mim também. Um problema é essa variável binária y e não tenho certeza de como verificar as propriedades da função linear nessas circunstâncias. Acho que fará sentido se você fizer perguntas separadas, talvez alguém possa explicar por que foi escrito dessa maneira.
itdxer
2

Também acho difícil seguir este fragmento do livro, e a resposta acima de itdxer merece algum tempo para ser compreendida também por alguém que não seja fluente com probabilidades e raciocínio matemático. No entanto, consegui ler a resposta ao contrário, então comece com o sigmóide de z

P(y=1)=ez1+ez=11+ez

e tente seguir de volta para.

logP~(y)=yz

Então faz sentido porque eles começaram a explicação com yz - é por design, o mesmo que o final

σ((2y1)z)

por construção permite obter -1 para y = 0 e 1 para y = 1, que são os únicos valores possíveis de y sob o Bernoulli.

Jakub Jurek
fonte
0

Aqui está um fraseado mais formal que irá agradar àqueles com formação teórica em medidas.

YPYy{0,1}PY(y)=P(Y=y)P~Y

Temos a seguinte cadeia de implicações:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

{0,1}{1,1}

Gabriel Romon
fonte