Qual é o problema de salto de dimensão no aprendizado de máquina (ocorrendo em redes neurais convolucionais e reconhecimento de imagem)? Eu pesquisei sobre isso, mas tudo o que recebo são informações sobre a física da deformação da forma do material. Seria mais útil para mim se alguém o explicasse com um exemplo relacionado ao aprendizado de máquina. Alguém pode me ajudar com isso ou me indicar recursos que podem?
Pelo que entendi, o problema é o seguinte: No reconhecimento de imagens, as entradas para sua rede podem ser os pixels (em escala de cinza ou apenas 1 e 0 para preto e branco). Se você quiser, por exemplo, reconhecer números manuscritos, é muito difícil trabalhar apenas com esses valores, pois você nunca sabe onde será exatamente o número (ou seja, os valores em preto).
O pixel 140 é preto ou 142 é preto? Nos dois casos, pode ser um três. No exemplo de idade / peso, essas entradas estão bem definidas. O recurso 2 é peso. O recurso 3 é a idade. Essas "dimensões" não devem "saltar" no seu conjunto de dados.
Portanto: no treinamento da sua imagem, os "três" ou "carros" ou "casas" devem ser reconhecidos independentemente de sua localização na imagem, ou seja, os valores de pixel, ou seja, o vetor de característica / entrada, ou seja, as dimensões em oposição às claramente definidas entradas como dados do paciente.
Como você resolve isso no reconhecimento de imagens? Você usa truques adicionais, por exemplo, convolução.
fonte
Eu li as respostas anteriores e o comentário de Neil Slater no post de Emre, copiado novamente abaixo, bate no prego. "Salto de dimensão" é um termo criado pelo Dr. Hinton de fama pioneira em aprendizado de máquina no contexto do ponto de vista. Para citar o Dr. Hinton "Então, tipicamente visualize as dimensões de entrada correspondentes a pixels e, se um objeto se mover no mundo e você não mover seus olhos para segui-lo, as informações sobre o objeto ocorrerão em pixels diferentes". Idade e peso são dimensões de entrada que não são facilmente confundidas. O Dr. Hinton usou esta obviamente NÃO provável dimensão da situação de salto de idade e peso dos pacientes para significar que certamente seríamos capazes de identificar e corrigir qualquer erro entre esses tipos de dados (é difícil não notar que a maioria dos adultos tem menos de 100 anos ou mais de 100 libras). O provável problema do salto de dimensão, abordado pelo Dr. Hinton, é que os pixels podem ser deslocados porque temos um ponto de vista diferente (por exemplo, o objeto pode ter se movido ou estamos olhando para ele de um ângulo diferente). As redes neurais lineares não seriam capazes de detectar isso, enquanto as redes neurais convolucionais por design o seriam.
"O exemplo de idade deve destacar um conjunto de dados que não possui salto de dimensão. Idade e peso não" pulam "ou trocam valores aleatoriamente entre exemplos - eles não são intercambiáveis e o exemplo está mostrando o quão estranho isso seria (e como difícil, isso tornaria tarefas simples, como regressão linear) Os valores de pixel nas imagens (e dados semelhantes em muitas tarefas de processamento de sinal) se trocam ou se movem facilmente devido à natureza do problema #: 305 de Neil Slater "
fonte
Explicação direta do curso de Hinton sobre Redes Neurais para Aprendizado de Máquina ...
"O salto de dimensão ocorre quando é possível pegar as informações contidas nas dimensões de alguma entrada e movê-las entre as dimensões sem alterar o alvo . O exemplo canônico está tomando uma imagem de um dígito manuscrito e traduzi-lo na imagem.As dimensões que contêm "tinta" agora são diferentes (foram movidas para outras dimensões), no entanto, o rótulo que atribuímos ao dígito não mudou. Observe que isso não é algo isso acontece de forma consistente no conjunto de dados, ou seja, podemos ter um conjunto de dados contendo dois dígitos manuscritos, onde um é uma versão traduzida do outro; no entanto, isso ainda não altera o rótulo correspondente dos dígitos ".
fonte
Esperar é apenas um problema com a parte da imagem ou pixels se movendo dentro da dimensão (principalmente) e algumas vezes para outra escuridão (campo receptivo diferente), mas a saída permanece a mesma.
Esse problema é tratado com invariância ou equivalência e parece que o exemplo de peso e idade é uma maneira fácil de declarar. Suponha que, se estamos cientes desse salto de peso e idade, faríamos facilmente alterações no algo e obteríamos o resultado certo. Mas, como o salto de dados / informações, o salto de imagem também acontece, se considerarmos um '4' e um '4' deslocados vários pixels para a esquerda como classes diferentes, com diferentes alvos.
Com Invariância de tradução ou melhor equivalência, throguh filtra esse movimento ou salto não é muito problemático, embora aumente a complexidade e o custo de jogar fora informações, como local.
Pls deixe-me saber se você precisar de mais clareza, vou tentar.
fonte