No artigo Faster RCNN, ao falar sobre ancoragem, o que eles significam usando "pirâmides de caixas de referência" e como isso é feito? Isso significa apenas que em cada um dos pontos de ancoragem W * H * k é gerada uma caixa delimitadora?
Onde W = largura, H = altura ek = número de proporções * num dimensiona
link para o artigo: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
fonte
fonte
Respostas:
Âncoras explicadas
Âncoras
Por enquanto, ignorando o termo chique de "pirâmides de caixas de referência", as âncoras nada mais são que retângulos de tamanho fixo a serem alimentados à Rede de Propostas da Região. As âncoras são definidas no último mapa de convolucionais, o que significa que existem delas, mas elas correspondem à imagem. Para cada âncora, o RPN prevê a probabilidade de conter um objeto em geral e quatro coordenadas de correção para mover e redimensionar a âncora para a posição correta. Mas como a geometria das âncoras tem a ver com o RPN?(Hfeaturemap∗Wfeaturemap)∗(k)
Âncoras realmente aparecem na função Perda
Ao treinar o RPN, primeiro um rótulo de classe binária é atribuído a cada âncora. As âncoras com intersecção sobre a união ( IoU ) se sobrepõem a uma caixa de verificação de solo, maior que um determinado limite, recebem um rótulo positivo (da mesma forma, as âncoras com IoUs menores que um determinado limite serão rotuladas como negativas). Esses rótulos são usados ainda para calcular a função de perda:
onde e h denotam as coordenadas centrais da caixa e sua largura e altura. As variáveis e são para a caixa prevista, caixa âncora e caixa verdade da terra, respectivamente (da mesma forma para ).x,y,w, x,xa, x∗ y,w,h
Observe também que as âncoras sem etiqueta não são classificadas nem remodeladas e o RPM simplesmente as expulsa dos cálculos. Depois que o trabalho da RPN é concluído e as propostas são geradas, o restante é muito semelhante aos R-CNNs rápidos.
fonte
Li este artigo ontem e, à primeira vista, também foi confuso para mim. Após reler, cheguei a esta conclusão:
7x7x512 (HxWxD)
.3x3
camada conv. O tamanho da saída é7x7x512
(se o preenchimento for usado).7x7x(2k+4k)
(por exemplo7x7x54
) camada com uma1x1
camada de conv para cada uma dask
caixas de ancoragem.Agora, de acordo com a Figura 1 no artigo, você pode ter uma pirâmide de imagens de entrada (as mesmas imagens com uma escala diferente), uma pirâmide de filtros (filtros de uma escala diferente, na mesma camada) ou uma pirâmide de caixas de referência. O último refere-se às
k
caixas de ancoragem na última camada da rede de propostas da região. Em vez de filtros com tamanhos diferentes que são empilhados uns sobre os outros (caixa do meio), filtros com tamanho e proporção diferentes são empilhados uns sobre os outros.Em resumo, para cada ponto de ancoragem (
HxW
, por exemplo ), é utilizada7x7
uma pirâmide de caixas de referência (k
, por exemplo9
).fonte
3x3
camada conv se traduz7x7
? No prototxt, ele diz que o preenchimento é 1 na última camada VGG16.