Qual é a diferença entre detecção de objeto, segmentação semântica e localização?

23

Eu li essas palavras em várias publicações e gostaria de ter algumas boas definições para esses termos, que deixam claro qual é a diferença entre detecção de objeto e segmentação semântica e localização. Seria bom se você pudesse fornecer fontes para suas definições.

Martin Thoma
fonte
1
Confira
Shatu

Respostas:

18

Li muitos artigos sobre Detecção de Objetos, Reconhecimento de Objetos, Segmentação de Objetos, Segmentação de Imagens e Segmentação de Imagem Semântica e aqui estão minhas conclusões que podem não ser verdadeiras:

Reconhecimento de Objetos: Em uma determinada imagem, você deve detectar todos os objetos (uma classe restrita de objetos depende do seu conjunto de dados), localize-os com uma caixa delimitadora e rotule essa caixa delimitadora com um rótulo. Na imagem abaixo, você verá uma saída simples de um reconhecimento de objeto de última geração.

Reconhecimento de objeto

Detecção de Objetos: é como reconhecimento de Objetos, mas nesta tarefa você tem apenas duas classes de classificação de objetos, o que significa caixas delimitadoras de objetos e caixas não delimitadas de objetos. Por exemplo, detecção de carro: você precisa detectar todos os carros em uma determinada imagem com suas caixas delimitadoras.

Detecção de Objetos

Segmentação de objetos: como o reconhecimento de objetos, você reconhecerá todos os objetos em uma imagem, mas sua saída deve mostrar esse objeto classificando os pixels da imagem.

segmentação de objetos

Segmentação de imagem: na segmentação de imagem, você segmentará regiões da imagem. sua saída não rotulará segmentos e regiões de uma imagem que sejam consistentes entre si devem estar no mesmo segmento. A extração de super pixels de uma imagem é um exemplo dessa tarefa ou segmentação de primeiro plano e segundo plano.

segmentação de imagem

Segmentação Semântica: Na segmentação semântica, você deve rotular cada pixel com uma classe de objetos (Carro, Pessoa, Cão, ...) e não-objetos (Água, Céu, Estrada, ...). Em outras palavras, na segmentação semântica, você rotulará cada região da imagem.

segmentação semântica

e_soroush
fonte
boa resposta. Observarei que o cs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 usa uma definição diferente de detecção de objeto que detecta várias classes e várias instâncias da mesma classe (não sei se há uma única definição aceita ou não, isso pode ser apenas por ambiguidade).
29516 Keith
1
exemplo de segmentação, como segmentação semântica, mas um tem que rotular as vacas como em separado
titus
2
Os slides da primeira comentário aqui agora: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu
5

Como esse problema ainda não está claro ainda em 2019, e pode ajudar os novos aprendizes a escolher, aqui está uma imagem muito boa mostrando as diferenças:

(localização é a caixa delimitadora da classe "ovelha", após a classificação da imagem) fonte: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea fonte: Towardsdatascience.com

fogx
fonte
3

Acredito que apenas "localização" significa "classificação de objeto único + localização usando uma caixa delimitadora 2D ou 3D".

"Detecção de objetos" está localizando + classificando todas as instâncias de classes de objetos conhecidas em questão.

A segmentação semântica é basicamente a classificação por pixel.

Também envolveu métricas envolvidas (fonte: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

Precisão é a proporção dos objetos identificados com precisão em relação ao número total de objetos previstos (proporção de positivos verdadeiros para positivos verdadeiros mais falsos positivos).

Lembre-se é a proporção dos objetos identificados com precisão em relação ao número total de objetos reais nas imagens (proporção de verdadeiros positivos para verdadeiros positivos mais negativos verdadeiros).

MAP: uma pontuação média de precisão média simplificada com base no produto de precisão e recuperação para o DetectNet. É uma boa medida combinada de quão sensível a rede é a objetos de interesse e quão bem evita alarmes falsos.

Andrei Pokrovsky
fonte
2

O termo localização não é claro. Portanto, discutirei os termos detecção de objetos e segmentação semântica.

Na detecção de objetos, cada pixel da imagem é classificado independentemente de pertencer a uma classe específica (por exemplo, face). Na prática, isso é simplificado pelo agrupamento de pixels para formar caixas delimitadoras, reduzindo assim o problema de decidir se a caixa delimitadora se ajusta perfeitamente ao objeto. Como os pixels podem pertencer a vários objetos (por exemplo, rosto, olho), eles podem conter vários rótulos ao mesmo tempo.

Por outro lado, a segmentação semântica envolve a atribuição de rótulos de classe a cada pixel da imagem. Embora permitam uma melhor precisão de localização, pois não incorporam a simplificação da caixa delimitadora, eles impõem estritamente um único rótulo por pixel.

faceetector
fonte
-2

Segmentação semântica: é a tarefa de agrupar partes das imagens que pertencem à mesma classe de objeto. por exemplo: detectar sinais de trânsito

Gan
fonte
2
Mas detectar sinais de trânsito é detecção de objetos. Você pode explicar a diferença?
reinierpost