Imagens não quadradas para classificação de imagens

9

Eu tenho um conjunto de dados de imagens amplas: 1760x128. Eu li vários tutoriais e livros, e a maioria deles afirma que as imagens de entrada devem ser quadradas e, se não, são transformadas em quadradas para serem treinadas em cnns já treinados (em imagens quadradas). Existe uma maneira de treinar o cnn para imagens não quadradas ou devo procurar outra opção como preenchimento?

conv-neural-network Voila
fonte

4

Existem várias maneiras de resolver o problema, dependendo do classificador. O Windows deslizante é o método com o qual estou mais familiarizado, usado nos métodos de rede neural. Esse método envolve pegar uma pequena sub-imagem e movê-la para cima e para baixo com algumas sobreposições. Alguns problemas incluem encontrar os parâmetros de turno ideais e problemas com várias escalas.

A detecção final é geralmente determinada pela confiança do classificador em que cada uma das sub-imagens pertence a essa classe: por exemplo, voto majoritário, probabilidade total ou distância total do limite da decisão. Listei alguns materiais abaixo, o primeiro é para o método classificador HOG, mas os conceitos são os mesmos.

Joseph Santarcangelo
fonte

2

Isso não deve causar nenhum problema se você estiver usando uma CNN. Fiz uma CNN para reconhecer rostos e, como os rostos costumam ter cerca de 70% da largura e altura, usei imagens de treinamento com 80x100 pixels (um pouco mais de largura caso a cabeça estivesse em ângulo). Seus filtros ainda devem ser quadrados.

Tudo o que muda seria que agora você deve acompanhar a largura e a altura dos mapas de ativação / pool em vez de apenas um valor que informe o tamanho. Por exemplo -

Imagem de entrada de 80 x 100 O filtro de convolução 5 x 5 fornece um mapa de ativações em 76 x 96 O pool 2 x 2 fornece um mapa de ativações agrupadas em 38 x 48

Frobot
fonte

Imagens não quadradas para classificação de imagens

Respostas: