O que é pré-treinamento e como você pré-treina uma rede neural?

10

Entendo que o pré-treinamento é usado para evitar alguns dos problemas do treinamento convencional. Se eu usar a retropropagação com, digamos, um autoencodificador, sei que vou ter problemas de tempo porque a retropropagação é lenta, e também que posso ficar preso no ótimo local e não aprender certos recursos.

O que não entendo é como pré-treinamos uma rede e o que especificamente fazemos para pré-treinar. Por exemplo, se recebermos uma pilha restrita de máquinas Boltzmann, como prepararíamos essa rede?

Michael Yousef
fonte
2
A menos que você esteja em um ambiente com apenas algumas amostras etiquetadas e muitas não etiquetadas, o pré-treinamento é considerado obsoleto. Se esse não for o caso, o uso de uma função de transferência de retificador e otimizadores avançados (rmsprop, adadelta, adam) funciona igualmente bem para redes neurais profundas. f(x)=max(x,0)
precisa saber é
Sim, estou trabalhando com a suposição de que há uma grande quantidade de amostras não rotuladas e poucas ou nenhuma amostra rotulada.
22815 Michael Yousef

Respostas:

2

Você começa treinando cada RBM na pilha separadamente e depois combina em um novo modelo que pode ser ajustado ainda mais.

Suponha que você tenha 3 RBMs, você treina RBM1 com seus dados (por exemplo, um monte de imagens). O RBM2 é treinado com a saída do RBM1. O RBM3 é treinado com a saída do RBM2. A idéia é que cada modelo de RBM represente as imagens e os pesos que eles aprendem ao fazê-lo sejam úteis em outras tarefas discriminatórias, como classificação.

mnagaraj
fonte
0

O pré-treinamento de um RBM empilhado é minimizar avidamente a camada de energia definida, ou seja, maximizar a probabilidade. G. Hinton propôs o algoritmo CD-k, que pode ser visto como uma única iteração da amostragem de Gibbs.

Mou
fonte
Portanto, o pré-treinamento do RBM empilhado nos permite minimizar a energia definida e obter melhores resultados. E então o algoritmo de Divergência Contrastante de Hinton é como nós realmente treinamos. Como exatamente a pré-formação leva em consideração o aprendizado de recursos extras? Presumo que, para a questão da velocidade, o algoritmo do CD seja muito mais rápido que a retropropagação.
22815 Michael Yousef