Qual é a diferença entre um campo receptivo e um mapa de características?

9

Em uma CNN, o campo receptivo é a parte da imagem usada para calcular a saída do filtro. Mas a saída de um filtro (também chamada de "mapa de recursos") é a entrada do próximo filtro.

Qual é a diferença entre um campo receptivo e um mapa de características?

Monica Heddneck
fonte

Respostas:

4

Campo Receptivo

O campo Receptive , no contexto da mecânica da CNN, é o intervalo discreto de entrada selecionado como entrada para o núcleo de convolução de uma camada específica. O alcance de um campo receptivo é função da posição e do tamanho. O intervalo se aplica a uma ou mais dimensões. 1 1

  • Horizontal
  • Vertical
  • Índice de quadros
  • Incremento de tempo
  • Índice de camada de pixel
  • Outras dimensões

A posição do campo receptivo é variada sistematicamente para selecionar um subconjunto do intervalo de índices em cada dimensão para cobrir o intervalo completo. 2 O tamanho corresponde à entrada do kernel operando nele e, portanto, normalmente constante. 3

Essas são as três características definidoras dos campos receptivos nas CNNs.

  • Especifica o intervalo de índices selecionados para entrada no kernel de convolução em termos de posição e tamanho do índice
  • O tamanho do intervalo do índice em cada dimensão (geralmente ímpares e menor que 20) corresponde às características de tamanho de entrada do kernel
  • A posição do intervalo do índice em cada dimensão, variada sistematicamente para abranger todo o intervalo de informações em todas as dimensões, geralmente variada por incrementos fixos

Observe que o termo Campo Receptivo se origina dos limites da representação do sinal do campo visual capturado em sistemas biológicos. Nesse contexto, o termo Campo Receptivo refere-se à faixa geométrica adquirida através de dispositivos ou órgãos de imagem. Assim como um olho pode escanear uma paisagem, a seleção de uma posição dentro do campo total de informações ocorre no design da CNN.

O ponto em comum entre o biológico e o artificial é o uso de variar o foco da atenção sobre o espaço sensorial total.

Mapa de recursos como uma representação dos recursos extraídos

O termo Mapa de Recursos neste contexto é um mapa que representa os recursos extraídos por uma ou mais camadas de convolução. O termo pode ser usado incorretamente para a saída intermediária de kernels, mas observe que a saída de camadas intermediárias anteriores às camadas que são agrupadas ainda não representa diretamente os recursos. Nesses estágios, a extração é incompleta, portanto, não há relação direta entre valores e recursos.

O termo mapa de recursos é usado com mais precisão ao descrever a saída da última camada de pool em uma seção das camadas CNN. Esta seção pode estar dentro de uma sequência de seções da CNN ou, de outra forma, ser componentes em uma arquitetura de sistema maior.

Exemplos de mapeamentos de recursos incluem estes.

  • Arestas
  • Aparência ou desaparecimento (domínio temporal)
  • Elementos do objeto
  • Trajetória de movimento
  • Ampliação
  • Objetos
  • Ações

Nesse uso do termo, o mapeamento de recursos é relativo às dimensões da informação, o espaço posicional sobre o qual o kernel foi aplicado.

Mapa de recursos como representação de uma transformação no espaço discreto de Hilbert

Quando o termo Mapa de Recursos é aplicado ao mapeamento realizado por uma ou um conjunto de camadas CNN, os recursos na saída são mapeados para a entrada, não para as posições. Nesse contexto, o mapeamento é a transformação de tensores no espaço Hilbert. Observe que o mapa não é uma representação do sinal, mas a representação da transformação, o kernel e seus parâmetros aprendidos em seu estado atual.

Para desambiguar esse contexto do anterior, pode ser útil usar o termo Mapeamento de Recursos para indicar uma transformação de tensor, em vez da saída de tal transformação.

Sobreposição dos Termos

Quando a saída de uma seção de convolução contém um mapa de recursos e é alimentada em outra camada ou seção de convolução, o mapa de recursos de uma seção se torna o espaço completo sobre o qual o campo receptivo seleciona o subconjunto de informações a serem alimentadas no próximo kernel como entrada.

Observe que um mapa de recursos é um sinal completo que representa todos os dados em sua seção da rede, onde como um campo receptivo geralmente é um subconjunto do sinal completo aplicado várias vezes para cobrir toda a amplitude do sinal em várias dimensões.

Os dois termos não são sinônimos em nenhum contexto, mas apenas relacionados pela teoria e prática.

Notas de rodapé

[1] A posição e o tamanho são especificados em cada um dos n dimensões em Eun, Onde n1 1.

[2] A seleção de faixas dentro de cada dimensão pode ser realizada por loop em algoritmos ou por soluções de hardware que executam operações de janelas com circuitos DSP ou GPU, possivelmente realizadas por operações RISC paralelas controladas por hardware ou firmware.

[3] Os índices de exemplo e época podem ser delimitados de maneira semelhante em alguns desenhos da CNN, mas esses índices não são, no sentido usual do termo, considerados parte dos campos receptivos. Somente as dimensões em cada exemplo são. Além disso, índices de fluxo de entrada, como o identificador da câmera, geralmente não são incluídos como uma dimensão dentro de um campo receptivo.

Douglas Daseeco
fonte
3

Espero que esta ilustração o ajude:

Campo (s) receptivo (s) : é uma pequena porção da entrada para produzir apenas um nó em um mapa de recursos .

Mapa (s) de recursos : é uma saída de processo convolucional; um mapa de recursos pode ser dito como uma representação de recursos da entrada do filtro. Um mapa de recursos consiste em muitas saídas do filtro (de diferentes campos receptivos) de um kernel. O número de mapas de recursos depende do número do kernel.

Assim, mesmo mapas de recursos são a entrada do próximo filtro, mas os próximos campos receptivos não são um mapa de recursos. O próximo campo receptivo consiste em um pequeno nó de porção de diferentes mapas de recursos (não apenas um mapa de recursos).

E também, podemos ver na ilustração acima, um mapa de características tem tamanho bidimensional (46.×46.), o tamanho do campo receptivo será sempre tridimensional (5×5×Número de mapas de recursos).

Malioboro
fonte