Eu estive pesquisando algoritmos de detecção de marcadores para usar com um aplicativo baseado em kinect, e a maior parte do trabalho que consegui encontrar é obviamente focada na detecção de recursos em imagens 'normais'.
No entanto, o hardware do kinect fornece (essencialmente, depois que você ajusta) um valor de profundidade de 11 bits por pixel.
Essa imagem de profundidade também possui vários artefatos visuais, a partir das sombras projetadas nas bordas dos objetos (veja, por exemplo, a forte borda preta deste vídeo http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=related ).
Enquanto algumas técnicas tradicionais de visão de máquina (por exemplo, detecção de borda) funcionam bem com isso, outras não, e parece que há pouca informação na rede discutindo isso.
Como um exemplo simples, o uso do valor de profundidade torna trivial detectar a orientação de um bloco de marcadores depois que você o localiza.
Então, alguém já viu discussões / documentos / etc. que cobrem o processamento de uma imagem em profundidade para detecção de recursos?
Alguém pode recomendar um bom algoritmo para detectar marcadores de "profundidade" (efetivamente blocos de origami em vez de marcadores de preto e branco)?
O que eu fiz até agora foi experimentação ad-hoc usando opencv para processar as imagens, mas isso não é nem perto nem estável nem rápido o suficiente.
Se você vincular a um produto comercial de visão de máquina sem algum tipo de avaliação, mencione na sua resposta por que você acha que é apropriado.
fonte
Respostas:
Meu descritor de recursos 2.5D / 3D favorito para registro e reconhecimento é a imagem spin (artigo original + mais detalhes na tese de doutorado e software disponível na CMU).
Outros avanços recentes (todos pesquisáveis on-line para algoritmos adequados) incluem: 3D-Sift, histograma de recurso de ponto rápido, recursos radiais alinhados normais (NARF), descritores de profundidade do núcleo. Os métodos mais antigos simplesmente usavam propriedades de superfície como curvatura e arestas para identificar manchas na região.
Qual é melhor? Depende do que você deseja encontrar, invariância do ponto de vista, confusão adicional, etc.
fonte
Você acertou todas as palavras-chave. Estou surpreso que você realmente não encontrou nenhum artigo relacionado ao procurar material.
Felizmente, tenho acesso à biblioteca digital IEEE Xplore. Eu não preciso de nenhum desses algoritmos em particular antes, mas parece muito interessante, então aqui estão alguns resultados de uma pesquisa rápida que eu acho que pode ser relevante (não os julgue por seus títulos, veja seus resumos):
Infelizmente, acho que você não pode acessar nenhum desses documentos gratuitamente, pelo menos não através da biblioteca IEEE Xplore. Se você não tiver acesso, provavelmente poderá conviver com Google Scholar , e existem alguns bancos de dados de papel gratuitos por aí (usei o banco de dados Mendeley quando ainda não tinha acesso ao IEEE). Além disso, apenas a pesquisa no Google de partes abstratas ou aleatórias do artigo às vezes produz alguns resultados (você pode encontrar uma versão pré-publicada quase pronta do artigo).
As consultas de pesquisa que usei para encontrar os artigos mencionados foram: imagem 3D , imagem profunda , kinect . Você também pode querer iniciar o processamento ao pesquisar as duas primeiras consultas.
Espero que isso ajude alguns! Sinto muito por não conseguir entrar mais no assunto, parece realmente interessante.
fonte