Alguém viu alguma literatura sobre pré-treinamento em redes neurais convolucionais profundas? Vi apenas pré-treinamento não supervisionado em máquinas de autoencoder ou boltzman restritas.
Alguém viu alguma literatura sobre pré-treinamento em redes neurais convolucionais profundas? Vi apenas pré-treinamento não supervisionado em máquinas de autoencoder ou boltzman restritas.
Não sei se isso responde exatamente à sua pergunta, mas pelo que entendi o motivo pelo qual você não vê as pessoas pré-treinando ( quero dizer isso em um sentido de pré-treinamento não supervisionado), convém é porque houve várias inovações no treinamento puramente supervisionado que tornaram desnecessário o pré-treinamento não supervisionado (por enquanto, quem sabe que problemas e questões o futuro trará?).
Uma das principais inovações foi afastar-se das unidades de ativação sigmoidal (sigmóide, tanh), que podem saturar / ter regiões de curvatura quase plana e, portanto, muito pouco gradiente é propagado para trás, de modo que o aprendizado é incrivelmente lento, se não completamente interrompido, para todos os objetivos práticos e propósitos. No artigo de Glorot, Bordes e Bengio, as Redes Neurais do Retificador Esparso Profundo usaram unidades lineares retificadas (ReLUs) como funções de ativação em vez das unidades sigmoidais tradicionais. As ReLUs têm o seguinte formato: . Observe que eles são ilimitados e, para a parte positiva, têm gradiente constante 1.
O artigo de Glorot, Bordes e Bengio usou ReLUs para perceptrons multicamadas e não redes Conv. Um artigo anterior Qual é a melhor arquitetura de vários estágios para reconhecimento de objetos de Jarret e outros do grupo da Universidade de Nova York de Yann LeCun usou não-linearidades de retificação, mas para as unidades sigmoidais, para que tivessem funções de ativação da forma , etc. Ambos os artigos observaram que o uso de não linearidades retificadoras parece fechar grande parte da lacuna entre métodos puramente supervisionados e métodos pré-treinados não supervisionados.
Outra inovação é que descobrimos inicializações muito melhores para redes profundas. Usando a idéia de padronizar a variação entre as camadas de uma rede, boas regras práticas foram estabelecidas ao longo dos anos. Uma das primeiras e mais populares foi Glorot e Bengio, Entendendo a dificuldade de treinar redes profundas de feedforward, que forneceram uma maneira de inicializar redes profundas sob uma hipótese de ativação linear e, posteriormente, aprofundando os retificadorespor um grupo de membros da equipe de Pesquisa da Microsoft que modifica a inicialização de peso de Glorot e Bengio para explicar as não-linearidades retificadoras. A inicialização do peso é importante para redes extremamente profundas. Para uma rede de convecção de 30 camadas, a inicialização do peso MSR teve um desempenho muito melhor que a inicialização do peso Glorot. Lembre-se de que o artigo Glorot foi lançado em 2010 e o artigo MSR em 2015.
Não tenho certeza se o documento da ImageNet Classification with Deep Convolutional Neural Networks de Alex Krizhevsky, Ilya Sutskever e Geoff Hinton foi o primeiro a usar ReLUs para redes de convenção, mas teve o maior impacto. Neste artigo, vemos que as ReLUs para redes de convívio aceleram o aprendizado, conforme evidenciado por um de seus gráficos CIFAR-10, que mostra que as redes de convenção ReLU podem obter taxas de erro de treinamento mais baixas mais rapidamente do que as redes não-ReLU. Essas ReLUs não sofrem com os problemas sigmoidais de gradiente / saturação que desaparecem e podem ser usadas para treinar redes muito mais profundas. Uma das outras grandes inovações tem sido o uso do treinamento Dropout, uma técnica de injeção estocástica de ruídos ou média de modelos (dependendo do seu ponto de vista), que nos permite treinar redes neurais maiores e mais profundas por mais tempo, sem se adaptar demais.
E a inovação da rede de convenção continuou em um ritmo avassalador, quase todos os métodos usando ReLUs (ou alguma modificação como PReLUs da Microsoft Research), Dropout e treinamento puramente supervisionado (SGD + Momentum, possivelmente algumas técnicas de taxa de aprendizado adaptável como RMSProp ou ADAGrad )
Então, a partir de agora, muitas das redes de alto desempenho parecem ser de natureza puramente supervisionada. Isso não quer dizer que o pré-treinamento não supervisionado ou o uso de técnicas não supervisionadas possam não ser importantes no futuro. Mas algumas redes de comunicação incrivelmente profundas foram treinadas, alcançaram ou superaram o desempenho no nível humano em conjuntos de dados muito ricos, apenas usando treinamento supervisionado. Na verdade, acredito que a última submissão da Microsoft Research ao concurso ImageNet 2015 tenha 150 camadas. Isso não é um erro de digitação. 150
Se você deseja usar pré-treinamento não supervisionado para redes de convenção, acho que seria melhor encontrar uma tarefa em que o treinamento supervisionado "padrão" de redes de convenção não tenha um desempenho tão bom e tente pré-treinamento não supervisionado.
Ao contrário da modelagem de linguagem natural, parece difícil encontrar uma tarefa não supervisionada que ajude uma tarefa supervisionada correspondente quando se trata de dados de imagem. Mas se você procurar na Internet o suficiente, verá alguns dos pioneiros do aprendizado profundo (Yoshua Bengio, Yann LeCun, para citar alguns) falar sobre a importância que eles acham que o aprendizado não supervisionado é e será.
Como pode ser entendido pelas respostas acima, o pré-treinamento foi 'modelado' quando várias coisas aconteceram. No entanto, eu quero destilar minha compreensão disso:
Como você vê, o pré-treinamento mudou de forma para pré-processamento e inicialização de pesos, mas permaneceu em função e ficou mais elegante.
Como nota final, o aprendizado de máquina está muito na moda. Pessoalmente, aposto como Andrew Ng que o aprendizado não supervisionado e autodidata será dominante no futuro, portanto, não faça disso uma religião :)
fonte
Existem alguns documentos, mas não tanto quanto codificadores automáticos ou RBMs. Eu acho que o motivo é a linha do tempo da NN. RBM empilhado e autoencoder são introduzidos em 2006 e 2007 , respectivamente. Após o emprego da ReLU em 2009, o aprendizado não supervisionado é parcialmente abandonado (quando há dados suficientes para aprender no aprendizado supervisionado direto). Embora a rede Convolution (ou LeNet) tenha sido inventada em 1989 , ela não pôde ser treinada como estrutura profunda até 2012, após a popularização do aprendizado supervisionado direto com a ReLU. Acho que os pesquisadores o treinaram principalmente usando o aprendizado supervisionado direto.
fonte