Importância do nó de viés nas redes neurais

19

Estou curioso para saber o quão importante é o nó de viés para a eficácia das redes neurais modernas. Eu posso entender facilmente que isso pode ser importante em uma rede superficial com apenas algumas variáveis ​​de entrada. No entanto, as redes neurais modernas, como no aprendizado profundo, geralmente têm um grande número de variáveis ​​de entrada para decidir se um determinado neurônio é acionado. Simplesmente removê-los, por exemplo, LeNet5 ou ImageNet, teria algum impacto real?

pir
fonte
@gung - Vi que você editou o título para usar a frase "nó de viés". Estou curioso para saber por que você prefere esse título? Eu nunca ouvi esse uso antes. Além disso, parece confuso usar a palavra "nó" quando o viés não é um nó separado em uma rede.
Pir
2
Se você não gostar, poderá reverter a edição com minhas desculpas. Eu sempre pensei que o nome era bastante padrão, embora eu não tenha tocado com ANNs há anos e alguns o chamam de "neurônio de viés". FWIW, "viés" é um pouco ambíguo em statistics / ML; geralmente se refere a um estimador cuja distribuição amostral não está centrada no valor real do parâmetro, ou em uma função preditiva / valor previsto que difere da função / média verdadeira etc., enquanto o nó de polarização é uma parte específica de um parâmetro. ANN.
gung - Restabelece Monica
2
É um nó real - pelo menos no sentido de que algum deles esteja - na rede. Por exemplo, veja os nós pretos nesta imagem .
gung - Restabelece Monica
Ok, isso faz sentido - é verdade que o "viés" é bastante ambíguo. Obrigada pelo esclarecimento.
pir
1
Para os neurônios, a unidade de polarização parece disparar expontaneamente, isso acontece na natureza.
precisa saber é o seguinte

Respostas:

15

A remoção do viés definitivamente afetará o desempenho e aqui está o porquê ...

Cada neurônio é como uma regressão logística simples e você tem . Os valores de entrada são multiplicados pelos pesos e o viés afeta o nível inicial de esmagamento na função sigmóide (tanh etc.), o que resulta na não linearidade desejada.y=σ(Wx+b)

Por exemplo, suponha que você queira que um neurônio ative quando todos os pixels de entrada forem pretos x 0 . Se não houver viés, não importando quais pesos W você possui, dada a equação y = σ ( W x ), o neurônio sempre dispara y 0,5 .y1x0 0Wy=σ(Wx)y0,5

Portanto, removendo os termos de viés, você reduziria substancialmente o desempenho da sua rede neural.

Yannis Assael
fonte
2
Obrigado, isso faz algum sentido. Eu acho que, embora a maioria das redes modernas use ReLU como a função de ativação (consulte, por exemplo, papers.nips.cc/paper/4824-imagenet ), isso ainda pode ser relevante se a rede precisar disparar quando todos os pixels de entrada forem pretos. ReLU é definido como f (x) = max (0, x).
pir
exatamente! é o mesmo caso ...
Yannis Assael 25/05
4
y1x0 0x0 0y0,5
2
Embora eu concorde com a teoria, vale ressaltar que nas grandes redes modernas as chances de obter uma entrada zero são insignificantes. Isso também se baseia na suposição de que uma rede desejaria disparar redes de 1 profundidade provavelmente não se importaria com a saída de um único neurônio - é por isso que o abandono é tão popular na regularização de redes.
Max
2
@MaxGordon está certo. Esta resposta não se aplica a esta pergunta. Tente remover o viés de uma grande rede e você verá que isso faz muito pouca diferença.
Neil G
10

Discordo da outra resposta no contexto específico da sua pergunta. Sim, um nó de polarização é importante em uma pequena rede. No entanto, em um modelo grande, a remoção das entradas de polarização faz muito pouca diferença, pois cada nó pode criar um nó de polarização fora da ativação média de todas as entradas, o que pela lei de grandes números será aproximadamente normal. Na primeira camada, a capacidade de isso acontecer depende da sua distribuição de entrada. Para o MNIST, por exemplo, a ativação média da entrada é aproximadamente constante.

Em uma rede pequena, é claro que você precisa de uma entrada tendenciosa, mas em uma rede grande, removê-la quase não faz diferença. (Mas, por que você o removeu?)

Neil G
fonte
3

Gostaria de comentar a resposta de @ NeilG se tivesse reputação suficiente, mas infelizmente ...

Eu discordo de você, Neil, sobre isso. Você diz:

... a ativação média de todas as suas entradas, que pela lei de grandes números será aproximadamente normal.

Eu argumentaria contra isso e diria que a lei do grande número exige que todas as observações sejam independentes uma da outra. Esse não é o caso de redes neurais. Mesmo que cada ativação seja normalmente distribuída, se você observar um valor de entrada como excepcionalmente alto, isso altera a probabilidade de todas as outras entradas. Assim, as "observações", neste caso, entradas, não são independentes, e a lei dos grandes números não se aplica.

A menos que eu não esteja entendendo sua resposta.

ArturJ
fonte