Então, eu estou tentando treinar imagens de humanos usando redes convolucionais. Leio os jornais ( Paper1 e paper2 ) e esta ligação stackoverflow , mas eu não estou certo que eu sou entender a estrutura das redes (não é bem definida nos jornais).
Questões:
Posso fazer com que minha entrada seja seguida por uma camada de ruído seguida por uma camada de conv, seguida por uma camada de pool - depois disso - desassocio antes de fornecer minha saída (que é igual à minha imagem de entrada)?
Digamos que eu tenha várias (135.240) imagens. Se eu usar 32, (12,21) núcleos, seguidos por (2,2) agrupamentos, terminarei com 32 (62, 110) mapas de recursos. Agora, removo o pool para obter 32 (124, 220) mapas de recursos e depois aplainá-los? antes de dar a minha (135.240) camada de saída?
Se eu tiver várias dessas camadas de conv-pool, devo treiná-las uma a uma - como em autoencodificadores empilhados? Ou - posso ter algo como input-conv-pool-conv-pool-conv-pool-output (a saída é igual à entrada)? Nesse caso, como o pool e o depool devem ser gerenciados? Devo cancelar o pool apenas na última camada do pool antes da saída? E, novamente - qual deve ser o fator de redimensionamento dessa remoção de pool? A intenção é trazer os mapas de recursos de volta à forma da entrada?
Devo introduzir camadas de ruído após cada camada de conv-pool-depool?
E então, quando o ajuste fino - devo remover as camadas de remoção do pool e deixar o resto da mesma forma. Ou devo remover as camadas de ruído e de remoção de pool
Alguém pode me indicar um URL / artigo que tenha detalhado a arquitetura de um codificador automático convolucional empilhado para fazer um pré-treinamento em imagens?
Também procurei um modelo totalmente explicado de Autoencodificadores Convolucionais Empilhados.
Me deparei com três arquiteturas diferentes. Ainda os estou estudando e achei que isso poderia ajudar outras pessoas que também estão começando a explorar os CAEs. Quaisquer outras referências a documentos ou implementações ajudariam bastante.
As camadas de (convolve) __ x_times -> (deconvolve) __ x_times,
e obtenha o mesmo tamanho da entrada.
fonte
ASK QUESTION
na parte superior da página e faça a pergunta lá, podemos ajudá-lo adequadamente. Como você é novo aqui, convém fazer um tour , que contém informações para novos usuários.Eu não acho que o método de treinamento baseado em camadas esteja correto. Por exemplo, a arquitetura do codificador automático convolucional é:
input-> conv-> max_poo-> de_max_pool-> de_conv-> output.
Este é um codificador automático e deve ser treinado com toda a arquitetura. Além disso, não existe um critério estrito para saber se um codificador automático convolucional precisa de pool e un_pool. geralmente, um pool, mas sem un_pool. Aqui está uma comparação experimental com a ausência de pool e un_pool.
https://arxiv.org/pdf/1701.04949.pdf
fonte