Os algoritmos de registro de imagem geralmente são baseados em recursos pontuais, como SIFT (Transform-Invariant Feature Transform).
Vi algumas referências a recursos de linha, mas estava pensando se seria possível combinar segmentos de imagem em vez de pontos . Por exemplo, dada fonte e imagem transformada:
Eu posso fazer detecção de borda, desfoque e Watershed Transform em cada um:
Lamentavelmente, a segmentação acabou sendo muito diferente em cada imagem para corresponder a segmentos individuais.
Eu vi alguns trabalhos sobre formas correspondentes e descritores de formas que são invariantes a transformações afins, então essa área parece promissora ...
Existem métodos de segmentação mais robustos para afinar (ou até projetar) as deformações da imagem?
Respostas:
MSER (regiões extremais maximamente estáveis) são regiões, não pontos. E eles são invariantes à transformação afim. Mas não é um método de segmentação, estritamente falando
Informalmente, a idéia é encontrar blobs em vários limites e, em seguida, selecionar os blobs que menos alteram sua forma / área em um intervalo de limites. Essas regiões devem ser estáveis para uma grande variedade de transformações em escala de cinza e geométricas.
fonte
Atualmente, estou trabalhando no CBIR usando árvores de componentes , o que deve ser uma idéia relativamente nova. Algumas vantagens esperadas do uso de Árvores de Componentes para descrever imagens seriam:
Como eu comecei com pesquisas relacionadas a esse tópico, tenho apenas uma vaga idéia de meus objetivos: representar imagem com a Árvore de componentes e comparar as referidas Árvores de componentes, diretamente através da busca de uma representação vetorizada. Provavelmente poderei dizer muito mais em algumas semanas (ou meses), mas por enquanto só posso oferecer a lista de artigos recomendados para mim como uma introdução às Árvores de Componentes (ainda não as li):
Talvez eu possa atualizar a resposta como e se encontrar algo relevante.
Além disso, se seu objetivo é, de certa forma, corresponder regiões de imagem com mais precisão , em vez de apenas pontos , porque as regiões podem ser mais discriminatórias, houve uma sugestão interessante em J. Sivic e A. Zisserman: "Google Video: uma recuperação de texto Abordagem à correspondência de objetos nos vídeos " .
Refiro-me à seção que trata da Consistência espacial , onde um grupo de correspondências entre pontos de recurso é aceito apenas se os pontos de recurso mantêm uma configuração espacial semelhante nas duas imagens. Assim, a correspondência não depende apenas do tipo de recurso extraído (DoG, MSER, ...) ou do descritor (SIFT), mas também olha para o ambiente mais amplo de um ponto de recurso, tornando-o (pelo menos um pouco) dependente da região.
fonte