Lista de possíveis recursos de imagem para recuperação de imagem com base em conteúdo

15

Estou tentando encontrar uma lista de possíveis recursos de imagem, como cores, bordas orientadas e assim por diante, para medir sua usabilidade no caso de encontrar objetos iguais / similares nas imagens. Alguém conhece essa lista ou pelo menos alguns recursos?

jstr
fonte
Isso está fora de tópico, mas o CBIR pode extrair o recurso do conjunto de dados Open Image? É possível extrair o recurso de uma imagem mesmo que a imagem não seja salva no disco local?
Quix0te 13/1018

Respostas:

25

O campo em si é muito vasto. Então, eu duvido que você possa ter uma lista completa aqui. No entanto, o MPEG 7 é um dos principais esforços para padronizar essa área. Portanto, o que está incluído aqui não é universal - mas pelo menos o mais primário.

Aqui estão alguns dos principais recursos identificados no MPEG7 (eu realmente posso falar apenas sobre descritores visuais, outros não vêem isso no escopo completo).

Existem 4 categorias de Descritores Visuais:

1. Descritores de cores que incluem:
cor dominante,
layout de cores (essencialmente cor primária, bloco a bloco)
cor escalável (essencialmente histograma de cores),
estrutura de cores (essencialmente histograma de cores local)
e espaços de cores para tornar as coisas interoperáveis.

2. Descritores de Textura (veja também isso ), que incluem:
Descritor de Navegação de Textura - que define granularidade / grossura, regularidade e direção. Descritor de Textura Homogêneo - baseado no banco de filtros Gabor. e
Histograma de Borda

3. Descritores de forma que incluem:
Descritores baseados em região são atributos escalares da forma em consideração - como área, ecentricidades etc. Com
base no contorno que captura os recursos de forma das características reais e os
descritores 3D

4. Descritores de movimento para o
movimento da câmera de vídeo (parâmetros de movimento da câmera 3D)
Trajetória de movimento (de objetos na cena) [por exemplo, extraída por algoritmos de rastreamento] Movimento paramétrico (por exemplo, vetores de movimento, que permite a descrição do movimento da cena. modelos mais complexos em vários objetos).
Atividade que é mais um descritor semântico.


O MPEG 7 não define "Como estes são extraídos" - apenas define o que eles significam e como representá-los / armazená-los. Portanto, existem pesquisas sobre como extraí-las e usá-las.

Aqui está outro bom artigo que fornece informações sobre este assunto.

Mas sim, muitos desses recursos são bastante básicos e podem ser necessárias mais pesquisas para criar um conjunto de recursos mais sofisticados (e complexos).

Dipan Mehta
fonte
8

Ok, acho que encontrei uma lista adequada apenas pesquisando um pouco mais. Há um artigo de Deselaers etc al. que parece ser o que eu estava procurando!

jstr
fonte
6

Há também um livro que reúne um conjunto de papéis relacionados a esse tópico. Chama-se Princípios de Recuperação de Informação Visual .

Geerten
fonte
A pesquisa sobre os livros não revela muitas críticas positivas. Mais reclamações do que positivos, na verdade. Você ainda acha que é uma boa referência e, se for o caso, talvez possa nos dizer quando foi útil para você? :)
penelope
O principal motivo para colocá-lo aqui não é que eu usei muito, mas meu professor o recomendou (e eu valorizo ​​sua opinião). Pesquisar no Google mostra que é realmente um monte de papéis e não um livro. Também mostra que é bastante antigo, mas ainda é um dos poucos livros sobre o assunto. Portanto, acho que minha resposta ainda é apropriada.
Geerten
3

@Dipan Mehta abordou os descritores de recursos que podem ser usados. Deixe-me agora tentar cobrir o outro lado da moeda, mencionando alguns métodos de detecção de recursos que extraem recursos adequados para o CBIR .

Minha referência para minha pesquisa CBIR foram os artigos de Sivic, Zisserman e Nister, Stewenius . Existem trabalhos mais atuais desses autores, mas eles apresentam todas as idéias relevantes.

Eles argumentam que, para implementar métodos CBIR eficientes , recursos de propriedades complementares devem ser usados:

  • Regiões adaptadas à forma - tendem a ser centralizadas emrecursos semelhantes a cantos

    exemplos: cantos de Harris, Harris multi-escala, Dog (Diferença de gaussianos - mas também responde às arestas!)

  • Regiões maximamente estáveis - tendem a se concentrar emrecursos semelhantes a blobs

    exemplos: MSER (regiões extermais maximamente estáveis), DoG

Surpreendentemente, a Wikipedia também oferece uma boa classificação dos tipos de recursos (detectores), indicando o tipo de região de interesse que eles detectam para a maioria dos recursos atualmente usados:

  • detectores de borda
  • detectores de canto
  • detectores de blob
  • detectores de cume

A maioria dos artigos atuais que eu li jurou que os descritores SIFT (transformadores de escala invariáveis ​​em escala) balançam e são suficientemente robustos para usar em combinação com os detectores de recursos escolhidos. As referências incluem:

  • links já fornecidos
  • Mikolajczyk, Schmid trata da comparação de descritores locais
  • Dahl avalia combinações detector-descritor

Nota! que esses documentos não tratam estritamente do CBIR, mas são usados ​​como referências em trabalhos relacionados ao CBIR .

Por fim, vale mencionar que os métodos CBIR bem-sucedidos não dependem apenas dos detectores e descritores de recursos utilizados, mas também:

  • uma estrutura de pesquisa eficiente (quantização de recursos visuais)
  • maneira de construir descritores de imagem - com base nos recursos visuais comuns (descritores locais) ou comparando descritores de imagem globais (essa é uma ideia muito nova, portanto, não há referências atualmente)
  • medida de distância entre descritores de imagem

Além disso, eu já respondi algumas perguntas sobre o CBIR no DSP e no stackoverflow , ambas são acompanhadas de referências e explicações e acho que podem ser relevantes, portanto, você pode dar uma olhada:

  • DSP: 1
  • stackoverflow: 1 , 2
Penélope
fonte