Existem algoritmos de visão computacional que visam especificamente imagens de profundidade?

9

Eu estive pesquisando algoritmos de detecção de marcadores para usar com um aplicativo baseado em kinect, e a maior parte do trabalho que consegui encontrar é obviamente focada na detecção de recursos em imagens 'normais'.

No entanto, o hardware do kinect fornece (essencialmente, depois que você ajusta) um valor de profundidade de 11 bits por pixel.

Essa imagem de profundidade também possui vários artefatos visuais, a partir das sombras projetadas nas bordas dos objetos (veja, por exemplo, a forte borda preta deste vídeo http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=related ).

Enquanto algumas técnicas tradicionais de visão de máquina (por exemplo, detecção de borda) funcionam bem com isso, outras não, e parece que há pouca informação na rede discutindo isso.

Como um exemplo simples, o uso do valor de profundidade torna trivial detectar a orientação de um bloco de marcadores depois que você o localiza.

Então, alguém já viu discussões / documentos / etc. que cobrem o processamento de uma imagem em profundidade para detecção de recursos?

Alguém pode recomendar um bom algoritmo para detectar marcadores de "profundidade" (efetivamente blocos de origami em vez de marcadores de preto e branco)?

O que eu fiz até agora foi experimentação ad-hoc usando opencv para processar as imagens, mas isso não é nem perto nem estável nem rápido o suficiente.

Se você vincular a um produto comercial de visão de máquina sem algum tipo de avaliação, mencione na sua resposta por que você acha que é apropriado.

Doug
fonte
Existem toneladas de papéis e programas para isso. Desculpe, não posso responder com mais detalhes, com baixa largura de banda. Consulte o aplicativo RGBDemo, que inclui um reconhecedor de objetos. Além disso, a PointCloud Library (PCL), ROS, OpenCV, para software, e presumivelmente o Google Scholar, para documentos. Você mencionou que o OpenCV não é satisfatório para você, mas PCL e RGBDemo podem ser.
Não estou procurando uma implementação de uma demonstração que mostre o kinect, ou algumas demos de PC que mostrem como gerar um modelo 3D a partir de um kinect ou um kit de ferramentas de processamento de imagem (ou seja, opencv). Estou procurando algoritmos para reconhecimento de recursos com base em imagens de profundidade.
O RGBDemo implementa esses algoritmos. Leia o código ou as referências para o código.

Respostas:

8

Meu descritor de recursos 2.5D / 3D favorito para registro e reconhecimento é a imagem spin (artigo original + mais detalhes na tese de doutorado e software disponível na CMU).

Outros avanços recentes (todos pesquisáveis ​​on-line para algoritmos adequados) incluem: 3D-Sift, histograma de recurso de ponto rápido, recursos radiais alinhados normais (NARF), descritores de profundidade do núcleo. Os métodos mais antigos simplesmente usavam propriedades de superfície como curvatura e arestas para identificar manchas na região.

Qual é melhor? Depende do que você deseja encontrar, invariância do ponto de vista, confusão adicional, etc.

tiluki
fonte
7

Você acertou todas as palavras-chave. Estou surpreso que você realmente não encontrou nenhum artigo relacionado ao procurar material.

Felizmente, tenho acesso à biblioteca digital IEEE Xplore. Eu não preciso de nenhum desses algoritmos em particular antes, mas parece muito interessante, então aqui estão alguns resultados de uma pesquisa rápida que eu acho que pode ser relevante (não os julgue por seus títulos, veja seus resumos):

Infelizmente, acho que você não pode acessar nenhum desses documentos gratuitamente, pelo menos não através da biblioteca IEEE Xplore. Se você não tiver acesso, provavelmente poderá conviver com Google Scholar , e existem alguns bancos de dados de papel gratuitos por aí (usei o banco de dados Mendeley quando ainda não tinha acesso ao IEEE). Além disso, apenas a pesquisa no Google de partes abstratas ou aleatórias do artigo às vezes produz alguns resultados (você pode encontrar uma versão pré-publicada quase pronta do artigo).

As consultas de pesquisa que usei para encontrar os artigos mencionados foram: imagem 3D , imagem profunda , kinect . Você também pode querer iniciar o processamento ao pesquisar as duas primeiras consultas.

Espero que isso ajude alguns! Sinto muito por não conseguir entrar mais no assunto, parece realmente interessante.

Penélope
fonte
@mankoff, apenas no resumo, apenas vejo o trabalho concentrado no rastreamento, e parece que ele se concentra no uso de informações diretas com pouca detecção de recurso. Mas então, acabei de ler o resumo, então não tenho certeza.
Pesquisar no Google os títulos dos artigos é suficiente para encontrar PDFs para vários desses artigos. Outra boa fonte é o CiteSeer: citeseerx.ist.psu.edu/index Obrigado pela lista de artigos!
Rethunk