É possível obter resultados de última geração usando apenas a propagação traseira (sem pré-treinamento )?
Ou será que todas as abordagens de quebra de recordes usam alguma forma de pré-treinamento?
A propagação traseira é boa o suficiente?
É possível obter resultados de última geração usando apenas a propagação traseira (sem pré-treinamento )?
Ou será que todas as abordagens de quebra de recordes usam alguma forma de pré-treinamento?
A propagação traseira é boa o suficiente?
O pré-treinamento não é mais necessário . Seu objetivo era encontrar uma boa inicialização para os pesos da rede, a fim de facilitar a convergência quando um alto número de camadas fosse empregado. Atualmente, temos ReLU , normalização de abandono e lote , os quais contribuem para resolver o problema do treinamento de redes neurais profundas. Citação da postagem do reddit vinculada acima (pelo vencedor do desafio Galaxy Zoo Kaggle):
Eu diria que a “era do pré-treinamento”, que começou por volta de 2006, terminou no início dos anos 10, quando as pessoas começaram a usar as unidades lineares retificadas (ReLUs) e depois desistiram, e descobriram que o pré-treinamento não era mais benéfico para isso. tipo de redes.
No artigo da ReLU (link acima):
redes retificadoras profundas podem alcançar seu melhor desempenho sem exigir nenhum pré-treinamento não supervisionado
Com isso dito, não é mais necessário , mas ainda pode melhorar o desempenho em alguns casos em que há muitas amostras não supervisionadas (não identificadas), como visto neste artigo .