RNNs são notavelmente bons para capturar a dependência de tempo de dados seqüenciais. No entanto, o que acontece quando os elementos da sequência não são igualmente espaçados no tempo?
Por exemplo, a primeira entrada na célula LSTM acontece na segunda-feira, depois não há dados de terça a quinta-feira e, finalmente, novas entradas para cada sexta-feira, sábado e domingo. Uma possibilidade seria ter algum tipo de vetor NULL sendo alimentado de terça a quinta-feira, mas isso parece ser uma solução boba, tanto porque as entradas NULL contaminarão os dados quanto o desperdício de recursos.
Alguma ideia? Como os RNNs lidam com esses casos? Se houver outros métodos além dos RNNs, também aceito essas sugestões.
Respostas:
Além disso, dependendo exatamente de quão esparsos e irregulares os dados são, as entradas NULL devem ser uma solução razoável. Suspeito que a porta de entrada de um LSTM permita que o LSTM leia corretamente as informações de uma entrada NULL sem contaminar os dados (a memória / estado oculto) como você o coloca.
fonte
fonte
Eu acho que depende dos dados. Por exemplo, se você está processando contagens e se esqueceu de medi-las em alguns dias, a melhor estratégia é imputar os valores ausentes (por exemplo, por interpolação ou processos Gaussianos) e depois processar a série temporal imputada com uma RNN. Ao imputar, você incorporaria conhecimento.
Se a falta for significativa (estava muito quente, a medida conta em alguns dias), é melhor atribuir talvez e também anexar um vetor indicador que seja 1 se o valor estiver ausente e 0 em caso contrário.
fonte