Algoritmos de visão computacional (como isso é possível?)

Recentemente, deparei-me com uma empresa que criou o que parece ser uma tecnologia de visão computacional capaz de detectar furtos automaticamente e alertar seus usuários.

LIGAÇÃO

Assistir a alguns dos vídeos e exemplos fornecidos pela empresa me deixou completamente perplexo e espantado com a forma como eles podem ter alcançado essa funcionalidade.

Entendo que ninguém aqui será capaz de me dizer exatamente como isso pode ter sido alcançado, mas alguém está ciente - e poderia me indicar - pesquisa neste campo ou, alternativamente, talvez forneça detalhes sobre como algo assim pode ser implementado ou orientação de onde alguém pode começar?

Meu entendimento era que os algoritmos de visão computacional estavam muitos anos longe de serem tão sofisticados. Esse tipo de aplicativo é realmente possível? Alguém disposto a arriscar um palpite de como eles conseguiram isso?

algorithms computer-vision Maxim Gershkovich
fonte

Isso não parece tão difícil. Jogos detectam colisões o tempo todo entre objetos; por que você não detectou colisões entre uma pessoa e uma prateleira de itens e disparou um alarme quando essa pessoa estava caminhando em direção à porta sem pagar?

9788 Robert

Exatamente. É apenas reconhecimento de objetos e detecção de colisão. A menos que eles o conectem ao scanner, é fácil passar movendo os objetos sobre o scanner, mas apenas um pouco acima dele. O objeto parece ter colidido com o scanner, mas na verdade não.

Andrew T Finnell

De qualquer forma, nenhum dos mecanismos de detecção descritos no site (namorada, perda de cesta e auto-checkout) exige algo remotamente sofisticado. Eles fazem check-in em uma área muito confinada (o balcão da caixa) e podem fazer a verificação cruzada dos itens vistos na cesta com o que o scanner de código de barras está dizendo foi realmente digitalizado.

21711 Robert

Me desculpe, eu estou confuso. Vamos dar o exemplo sweathearting. Eu tenho dois itens, um item de baixo custo, um alto. Coloquei o item de baixo custo sob o de alto custo e digitalizei. Nesse ponto, podemos comparar o que foi digitalizado no sistema POS com o que é visível na câmera na mão do caixa, mas isso exige que o sistema seja capaz de "entender o que está sendo colocado na bolsa" em comparação com centenas de milhares de potenciais itens através de uma câmera de qualidade marginal. Isso parece extremamente complicado. o que estou perdendo?

Maxim Gershkovich

Eu acho que você está assumindo demais o quão bem isso funciona. Aposto que há uma taxa de erro decente e provavelmente é muito fácil jogar o sistema. Eu vejo isso como mais um sistema do tipo denunciante, onde apenas identifica possíveis lugares no vídeo que precisam de revisão humana. Como tal, a imprecisão é bem tolerada.

Chris12

Algoritmos de visão computacional (como isso é possível?)

Respostas: