Use AI ou Rede Neural para detecção de logotipo

10

Estou tentando detectar um logotipo de canal de TV dentro de um arquivo de vídeo. Portanto, basta inserir um .mp4vídeo de entrada , detectar se esse logotipo está presente em um quadro específico, por exemplo, primeiro quadro ou não.

Temos esse logotipo com antecedência (embora possa não ser o% 100 do mesmo tamanho) e o local é sempre fixo.

Eu já tenho uma abordagem baseada em correspondência de padrões. Mas isso requer que o padrão seja 100% do mesmo tamanho. Eu gostaria de usar o Deep Learning e a Neural Network para conseguir isso. Como eu posso fazer isso? Acredito que a CNN pode ter uma maior eficiência?

Tina J
fonte
11
Bem-vindo à AI! Grande assunto.
DukeZhou
11
@DukeZhou Tnx! Espero obter respostas adequadas com indicadores para alguns códigos de exemplo.
Tina J

Respostas:

5

Para executar o reconhecimento de imagem, você precisa encontrar uma maneira de representar uma imagem com determinados recursos.

Uma das características definidoras de um bom algoritmo de reconhecimento de imagem é a capacidade de detectar regiões salientes, ou seja, regiões que contêm mais informações

Atualmente, há muita atenção no aprendizado profundo para a classificação de imagens com base em conteúdo. Você pode obter resultados decentes implementando um aprendizado profundo com três ou mais camadas de CNNs, onde cada camada é responsável por extrair um ou mais recursos da imagem.

Seth Simba
fonte
Obrigado. Eu não sou um cara da CNN. Mas existe algum ponteiro para um código fonte que, dada uma imagem do logotipo, ele pode detectar se existe ou não?
Tina J
3
Ei, confira o DeepLogo no Github por Satoj Kovic. Está escrito em Python e usa a CNN para reconhecer os logotipos da marca. Eu publiquei o link abaixo. Felicidades. github.com/satojkovic/DeepLogo
Seth Simba
3

Como se trata de entrada de vídeo e os logotipos geralmente são estacionários porque são colocados sobre os quadros ao vivo ou gravados por hardware ou software, a tarefa não é difícil. Os logotipos também costumam ter paletas de cores limitadas e bordas nítidas. Os recursos de suas fontes, quando soletram palavras ou acrônimos, geralmente também são consistentes. Essas são generalidades que podem ser exploradas na aprendizagem profunda.

Como na outra pergunta semelhante postada por este autor, uma combinação de camadas LSTM e CNN pode ser treinada para encontrar e isolar o logotipo. Com alguns truques de imagem, a imagem por trás do logotipo também pode ser reconstruída com uma precisão e confiabilidade razoáveis ​​dos pixels ao redor do logotipo por meio de um conjunto semelhante de técnicas de aprendizado.

Estes são alguns pontos de partida para o desenvolvimento.

Douglas Daseeco
fonte