Existem artigos na literatura que abordam a seguinte tarefa de detecção de objetos?
A tarefa pode ser descrita da seguinte maneira:
Dado um conjunto de imagens, os rótulos são apenas coordenadas (x, y) que representam os locais dos objetos que desejamos detectar. Uma coordenada não está necessariamente no centro do objeto e o objeto pode ser de qualquer tamanho.
A tarefa é detectar um objeto que seja uma pessoa, um barco ou um carro. No entanto, os rótulos não indicam a categoria dos objetos, os rótulos são simplesmente coordenadas próximas aos objetos de interesse.
As imagens são tiradas a cada hora e são instantâneos da mesma cena; portanto, técnicas de subtração em segundo plano podem ajudar.
Existem cerca de 2000 imagens da mesma cena e cada imagem geralmente possui 2 objetos de interesse.
Gostaria de saber se essa tarefa já foi abordada antes?
Recursos de suínos e SVM mostraram grande sucesso na detecção de seres humanos em imagens. Mas a literatura relevante usa dados de treinamento nos quais os objetos de interesse são rotulados usando uma caixa delimitadora em vez de uma única coordenada.
Os três principais desafios são:
- É difícil escolher a caixa delimitadora para o classificador, pois os objetos podem ter qualquer tamanho.
- instantâneos da cena são tirados a cada hora (a câmera também pode se mover um pouco); portanto, usar a subtração em segundo plano não é fácil.
- não temos muitos dados rotulados.
Seria interessante ver como as pessoas lidam com esses desafios.
Obrigado!
Respostas:
O estado da arte em tais problemas é feito atualmente através de redes neurais profundas. Entre outras, duas abordagens populares e recentes para resolver o problema de detecção e localização de objetos são o artigo YOLO e o RCNN mais rápido , que executa um classificador em várias regiões de tamanhos variados em uma imagem.
Como humanos, barcos e carros são classes de objetos populares, eu tentaria primeiro ver o que redes pré-treinadas existentes podem fazer pelo seu problema e, se necessário, tentava treiná-las novamente usando seus dados.
fonte