Geoffrey Hinton está pesquisando algo que ele chama de "teoria das cápsulas" em redes neurais. O que é isso e como funciona?
neural-networks
rcpinto
fonte
fonte
Respostas:
Parece não ter sido publicado ainda; os melhores disponíveis online são esses slides para essa palestra . (Várias pessoas fazem referência a uma conversa anterior com este link , mas, infelizmente, ele está quebrado no momento em que escrevemos esta resposta.)
Minha impressão é que é uma tentativa de formalizar e abstrair a criação de sub-redes dentro de uma rede neural. Ou seja, se você observar uma rede neural padrão, as camadas estão totalmente conectadas (ou seja, todos os neurônios da camada 1 têm acesso a todos os neurônios da camada 0 e são acessados por todos os neurônios da camada 2). Mas isso não é obviamente útil; pode-se ter, digamos, n pilhas paralelas de camadas (as 'cápsulas') que cada uma se especializa em alguma tarefa separada (que pode, por si só, exigir que mais de uma camada seja concluída com êxito).
Se estou imaginando seus resultados corretamente, essa topologia gráfica mais sofisticada parece algo que poderia facilmente aumentar a eficácia e a interpretabilidade da rede resultante.
fonte
Para complementar a resposta anterior: existe um artigo sobre isso que trata principalmente de aprender cápsulas de baixo nível a partir de dados brutos, mas explica a concepção de Hinton de uma cápsula em sua seção introdutória: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
Também é importante notar que o link para a conversa do MIT na resposta acima parece estar funcionando novamente.
De acordo com Hinton, uma "cápsula" é um subconjunto de neurônios dentro de uma camada que gera um "parâmetro de instanciação" indicando se uma entidade está presente em um domínio limitado e um vetor de "parâmetros de pose" que especifica a pose da entidade em relação a uma versão canônica.
Os parâmetros emitidos por cápsulas de baixo nível são convertidos em previsões para a pose das entidades representadas por cápsulas de nível superior, que são ativadas se as previsões concordarem e produzirem seus próprios parâmetros (os parâmetros de pose de nível superior são médias das previsões recebidas )
Hinton especula que essa detecção de coincidência de alta dimensão é para que serve a organização de minicolunas no cérebro. Seu principal objetivo parece substituir o pool máximo usado em redes convolucionais, nas quais camadas mais profundas perdem informações sobre pose.
fonte
As redes de cápsulas tentam imitar as observações de Hinton do cérebro humano na máquina. A motivação deriva do fato de que as redes neurais precisavam de uma melhor modelagem das relações espaciais das partes. Em vez de modelar a coexistência, desconsiderando o posicionamento relativo, as redes de cápsulas tentam modelar as transformações relativas globais de diferentes sub-partes ao longo de uma hierarquia. Essa é a troca entre eqivariance vs. invariância, conforme explicado acima por outros.
Portanto, essas redes incluem um ponto de vista / orientação de orientação e respondem de maneira diferente a diferentes orientações. Essa propriedade os torna mais discriminativos, ao mesmo tempo em que introduz potencialmente a capacidade de executar estimativa de pose, pois os recursos do espaço latente contêm detalhes específicos e interpretáveis da pose.
Tudo isso é conseguido incluindo uma camada aninhada chamada cápsulas dentro da camada, em vez de concatenar outra camada na rede. Essas cápsulas podem fornecer saída vetorial em vez de escalar por nó.
A contribuição crucial do documento é o roteamento dinâmico que substitui o pool máximo padrão por uma estratégia inteligente. Esse algoritmo aplica um cluster de deslocamento médio nas saídas da cápsula para garantir que a saída seja enviada apenas ao pai apropriado na camada acima.
Os autores também combinam as contribuições com perda de margem e perda de reconstrução, que simultaneamente ajudam a aprender melhor a tarefa e mostram resultados de última geração no MNIST.
O artigo recente chama-se Dynamic Routing Between Capsules e está disponível em Arxiv: https://arxiv.org/pdf/1710.09829.pdf .
fonte
Baseado no artigo Roteamento Dinâmico entre Cápsulas
fonte
Uma das principais vantagens das redes neurais convolucionais é a sua invariância à tradução. No entanto, essa invariância tem um preço, ou seja, não considera como diferentes recursos estão relacionados entre si. Por exemplo, se tivermos uma imagem de um rosto, a CNN terá dificuldades em distinguir a relação entre o aspecto da boca e o nariz. As camadas máximas de pool são a principal razão para esse efeito. Porque quando usamos o máximo de camadas de pool, perdemos os locais precisos da boca e do ruído e não podemos dizer como eles se relacionam.
As cápsulas tentam manter a vantagem da CNN e corrigir essa desvantagem de duas maneiras;
Em outras palavras, a cápsula leva em consideração a existência do recurso específico que procuramos, como boca ou nariz. Essa propriedade garante que as cápsulas sejam invariantes à conversão, da mesma forma que as CNNs.
fonte