Modelo recorrente (CNN) em dados de EEG

10

Eu estou querendo saber como interpretar uma arquitetura recorrente em um contexto EEG. Especificamente, estou pensando nisso como uma CNN recorrente (em oposição a arquiteturas como LSTM), mas talvez se aplique a outros tipos de redes recorrentes também

Quando leio sobre R-CNNs, elas geralmente são explicadas em contextos de classificação de imagens. Eles são normalmente descritos como "aprendizado ao longo do tempo" ou "incluindo o efeito do tempo 1 na entrada atual"

Essa interpretação / explicação fica realmente confusa ao trabalhar com dados de EEG. Um exemplo de um R-CNN usado em dados de EEG pode ser encontrado aqui

Imagine que tenho exemplos de treinamento, cada um consistindo em uma matriz 1x512. Essa matriz captura uma leitura de tensão para 1 eletrodo em 512 pontos de tempo consecutivos. Se eu usar isso como entrada para uma CNN recorrente (usando convoluções 1D), a parte recorrente do modelo não está realmente capturando "tempo", certo? (como seria implícito nas descrições / explicações discutidas anteriormente) Como neste contexto, o tempo já é capturado pela segunda dimensão da matriz

Portanto, com uma configuração como essa, o que a parte recorrente da rede realmente nos permite modelar que uma CNN comum não pode (senão tempo)?

Parece-me que recorrente significa apenas fazer uma convolução, adicionar o resultado à entrada original e convolver novamente. Isso é repetido para o número x de etapas recorrentes. Que vantagem esse processo realmente oferece?

Simon
fonte
Eu acho que manter a entrada original em cada etapa é útil porque aprender a identidade pode ser difícil, é por isso que rede residual ou apenas copiar a entrada para ignorar a maioria das camadas ocultas pode ser útil. No caso especial do RCNN aplicado ao eeg, você pode imaginar que a convolução marca o tempo t = 50ms, porque algum recurso aparece naquele momento. Em seguida, sua rede pode examinar a entrada original naquele momento específico para análises adicionais.
AGEMO

Respostas:

1

A parte recorrente de uma rede permite, em geral, modelar dependências de longo e curto prazo. Portanto, seu modelo pode ter algum senso de estado.

Isso normalmente é vantajoso se você estiver usando séries temporais. Por exemplo, se você possui dados de um monitor de frequência cardíaca e gostaria de classificar entre repouso, estresse e recuperação. Se o seu ponto de dados diz que sua frequência cardíaca está em 130, isso depende de você estar se recuperando de cargas elevadas ou de alguma outra coisa.

Edit: Eu esqueci sua segunda pergunta.

Parece-me que recorrente significa apenas fazer uma convolução, adicionar o resultado à entrada original e convolver novamente. Isso é repetido para o número x de etapas recorrentes. Que vantagem esse processo realmente oferece?

Eu poderia pensar em algumas respostas possíveis. Ao envolver a parte recorrente, você meio que a filtra. Assim, você obtém um sinal mais limpo e os erros não se acumulam tanto. A baunilha sofre de gradientes de fuga explosivos, então essa poderia ser sua abordagem para superá-la. Além disso, você está incorporando seus recursos ao rcnn, o que pode levar, como ele afirmou, a mais caminhos a serem explorados. O que torna menos propenso a sobreajuste e, portanto, mais generalizável.

RyanMcFlames
fonte
0
  • A matriz de entrada 1x512 significa: a rede recorrente processa a voltagem do eletrodo 512 vezes, ou seja, você tem um recurso único para processar.
  • A CNN com um recurso é inútil.
Denize
fonte
-1

Lembre-se de que as CNNs são detectores de recursos. A saída de uma camada convolucional é uma matriz que sinaliza onde determinado recurso foi detectado.

Portanto, CNNs recorrentes são redes neurais recorrentes que aprendem seqüências de recursos, onde esses recursos também são aprendidos durante o treinamento.

ncasas
fonte
2
Esta é uma resposta enganosa, as CNNs não são detectores de recursos, são uma transformação de um espaço de recursos e, em seguida, um estimador de funções que mapeia os recursos transformados para uma saída. Além disso, de forma alguma o que o OP solicitou. Por favor, use os comentários para comentários. Isso faz com que a pergunta pareça respondida e impede que outras pessoas cliquem.
JahKnows
@JahKnows Depende da interpretação, ambos são, não são? dê uma olhada em (yosinski.com/deepvis). Isso pode ajudá-lo.
Media
@ncasas você poderia fornecer um link para o seu parágrafo?
Media