Eu queria saber qual é a melhor maneira de inicializar o estado para LSTMs. Atualmente, eu apenas inicializo para todos os zeros. Realmente não consigo encontrar nada online sobre como inicializá-lo. Uma coisa que eu estava pensando em fazer é tornar o estado inicial um parâmetro treinável. Algum conselho?
neural-networks
lstm
chasep255
fonte
fonte
Respostas:
Normalmente, você definiria os estados iniciais como zero, mas a rede aprenderá a se adaptar a esse estado inicial.
O artigo a seguir sugere aprender os estados ocultos iniciais ou usar ruído aleatório.
Basicamente, se seus dados incluem muitas sequências curtas, o treinamento do estado inicial pode acelerar o aprendizado.
Como alternativa, se seus dados incluírem um pequeno número de seqüências longas, talvez não haja dados suficientes para treinar efetivamente o estado inicial. Nesse caso, o uso de um estado inicial barulhento pode acelerar o aprendizado. Uma idéia que eles não mencionam seria aprender a média e o padrão do gerador de ruído.
O artigo observa que, se você optar por aprender o estado inicial, adicionar ruído é de pouco benefício.
fonte