Ajustando dinamicamente a arquitetura NN: inventando o desnecessário?

9

Estou começando minha jornada de doutorado, e o objetivo final que me propus é desenvolver RNAs que monitorem o ambiente em que trabalham e ajustem dinamicamente sua arquitetura ao problema em questão. A implicação óbvia é a temporalidade dos dados: se o conjunto de dados não é contínuo e não muda com o tempo, por que ajustar?

A grande questão é: com o recente aumento da aprendizagem profunda, ainda é um tópico relevante? Os FFNNs têm a chance de encontrar um nicho nos problemas de desvio de conceito?

Receio sobrecarregar o segmento com muitas perguntas, mas essa não é totalmente fora de tópico: conheço as RNNs, mas tenho uma experiência limitada (ok, nenhuma ou puramente teórica) com elas; Acredito que a adaptação da arquitetura dinâmica deve ser um tópico relevante no contexto das RNNs. A questão é: já foi respondida, e vou reinventar a roda?

PS cruzado para MetaOptimize

anna-earwen
fonte
Quando você diz "ajustar a arquitetura", você quer dizer os parâmetros (pesos, preconceitos) ou atualizar a estrutura real da rede (nós ocultos, função de ativação, conectividade etc.)? Além disso, em muitas aplicações de aprendizado profundo, o resultado final é uma rede neural de alimentação avançada, apenas uma com pesos inicializados por algum processo não supervisionado.
alto
@alto, estou me referindo à estrutura NN real - número de unidades ocultas e (possivelmente) camadas - tenho certeza de que pode ser implementada em diferentes níveis de complexidade. Sinto que tenho que começar a ler sobre o aprendizado profundo para poder chegar a algum lugar.
Anna-earwen
@ Anna-earwen tópico de doutorado interessante, como está indo, alguma publicação ainda?
Dikran Marsupial
11
@Dikran Marsupial, em breve irei ao IJCNN 2014 para falar sobre como e por que o PSO falha em treinar NNs de alta dimensão. Portanto, a resposta é sim e sei: fiz um grande desvio do vetor de pesquisa original e me pergunto se ainda voltarei às arquiteturas ajustáveis. Somente o tempo e os resultados empíricos dirão!
Anna-earwen
Vou procurá-lo no processo - entender por que as coisas não funcionam é algo que a ciência precisa mais (e sólidos estudos empíricos).
Dikran Marsupial

Respostas:

6

As redes neurais de correlação em cascata ajustam sua estrutura adicionando nós ocultos durante o processo de treinamento; portanto, este pode ser um ponto de partida. A maioria dos outros trabalhos que vi que ajusta automaticamente o número de camadas, o número de nós ocultos etc. de uma rede neural usa algoritmos evolutivos.

Infelizmente, este trabalho está fora da minha área, portanto não posso recomendar nenhum documento ou referência específica para ajudá-lo a começar. Posso dizer que não vi nenhum trabalho que tente otimizar conjuntamente a estrutura e os parâmetros da rede simultaneamente na comunidade de aprendizado profundo. De fato, a maioria das arquiteturas de aprendizado profundo se baseia em aprender avidamente uma única camada de cada vez, tornando assim o aprendizado on-line de redes neurais profundas uma área bastante intocada (o trabalho de Martens et al. Sobre Hessian Free Optimization sendo uma exceção notável).

alto
fonte
Muito obrigado, você já me deu informações suficientes para começar a procurar ouro. :)
anna-earwen
2

Outro motivo para considerar o desenvolvimento de novas abordagens para redes neurais construtivas (como o algoritmo CC @alto mencionado) está em aplicativos fora das estatísticas . Em particular, na neurociência teórica e na ciência cognitiva, redes neurais construtivas são frequentemente usadas devido a uma similaridade metafórica ao desenvolvimento e à neurogênese. Para um exemplo de uso pesado de correlação em cascata para isso, dê uma olhada nas publicações de Thomas R. Shultz . Infelizmente, a abordagem de correlação em cascata é biológica irrealista e se você tem uma inclinação da neurociência, vale a pena considerar como novos NNs com arquitetura ajustável podem ser usados ​​como melhores modelos de desenvolvimento e / ou neurogênese.

Artem Kaznatcheev
fonte
11
Obrigado, Artem! Na verdade, sou mais um cientista da computação puro do que qualquer outra coisa, portanto meu conhecimento da ciência neuro e congênita é menos do que escasso. Parece emocionante, no entanto, e como todas as estradas ainda estão abertas, eu também poderia me aprofundar nisso - pelo menos até certo ponto. No momento, estou particularmente interessado em aplicativos para problemas reais de engenharia e análise de dados que possam funcionar para benchmarking.
Anna-earwen