Eu li essas palavras em várias publicações e gostaria de ter algumas boas definições para esses termos, que deixam claro qual é a diferença entre detecção de objeto e segmentação semântica e localização. Seria bom se você pudesse fornecer fontes para suas definições.
terminology
computer-vision
Martin Thoma
fonte
fonte
Respostas:
Li muitos artigos sobre Detecção de Objetos, Reconhecimento de Objetos, Segmentação de Objetos, Segmentação de Imagens e Segmentação de Imagem Semântica e aqui estão minhas conclusões que podem não ser verdadeiras:
Reconhecimento de Objetos: Em uma determinada imagem, você deve detectar todos os objetos (uma classe restrita de objetos depende do seu conjunto de dados), localize-os com uma caixa delimitadora e rotule essa caixa delimitadora com um rótulo. Na imagem abaixo, você verá uma saída simples de um reconhecimento de objeto de última geração.
Detecção de Objetos: é como reconhecimento de Objetos, mas nesta tarefa você tem apenas duas classes de classificação de objetos, o que significa caixas delimitadoras de objetos e caixas não delimitadas de objetos. Por exemplo, detecção de carro: você precisa detectar todos os carros em uma determinada imagem com suas caixas delimitadoras.
Segmentação de objetos: como o reconhecimento de objetos, você reconhecerá todos os objetos em uma imagem, mas sua saída deve mostrar esse objeto classificando os pixels da imagem.
Segmentação de imagem: na segmentação de imagem, você segmentará regiões da imagem. sua saída não rotulará segmentos e regiões de uma imagem que sejam consistentes entre si devem estar no mesmo segmento. A extração de super pixels de uma imagem é um exemplo dessa tarefa ou segmentação de primeiro plano e segundo plano.
Segmentação Semântica: Na segmentação semântica, você deve rotular cada pixel com uma classe de objetos (Carro, Pessoa, Cão, ...) e não-objetos (Água, Céu, Estrada, ...). Em outras palavras, na segmentação semântica, você rotulará cada região da imagem.
fonte
Como esse problema ainda não está claro ainda em 2019, e pode ajudar os novos aprendizes a escolher, aqui está uma imagem muito boa mostrando as diferenças:
(localização é a caixa delimitadora da classe "ovelha", após a classificação da imagem) fonte: Towardsdatascience.com
fonte
Acredito que apenas "localização" significa "classificação de objeto único + localização usando uma caixa delimitadora 2D ou 3D".
"Detecção de objetos" está localizando + classificando todas as instâncias de classes de objetos conhecidas em questão.
A segmentação semântica é basicamente a classificação por pixel.
Também envolveu métricas envolvidas (fonte: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
Precisão é a proporção dos objetos identificados com precisão em relação ao número total de objetos previstos (proporção de positivos verdadeiros para positivos verdadeiros mais falsos positivos).
Lembre-se é a proporção dos objetos identificados com precisão em relação ao número total de objetos reais nas imagens (proporção de verdadeiros positivos para verdadeiros positivos mais negativos verdadeiros).
MAP: uma pontuação média de precisão média simplificada com base no produto de precisão e recuperação para o DetectNet. É uma boa medida combinada de quão sensível a rede é a objetos de interesse e quão bem evita alarmes falsos.
fonte
O termo localização não é claro. Portanto, discutirei os termos detecção de objetos e segmentação semântica.
Na detecção de objetos, cada pixel da imagem é classificado independentemente de pertencer a uma classe específica (por exemplo, face). Na prática, isso é simplificado pelo agrupamento de pixels para formar caixas delimitadoras, reduzindo assim o problema de decidir se a caixa delimitadora se ajusta perfeitamente ao objeto. Como os pixels podem pertencer a vários objetos (por exemplo, rosto, olho), eles podem conter vários rótulos ao mesmo tempo.
Por outro lado, a segmentação semântica envolve a atribuição de rótulos de classe a cada pixel da imagem. Embora permitam uma melhor precisão de localização, pois não incorporam a simplificação da caixa delimitadora, eles impõem estritamente um único rótulo por pixel.
fonte
Segmentação semântica: é a tarefa de agrupar partes das imagens que pertencem à mesma classe de objeto. por exemplo: detectar sinais de trânsito
fonte