No artigo chamado Aprendizagem Profunda e o Princípio do Gargalo de Informações, os autores declaram na seção II A) o seguinte:
Neurônios únicos classificam apenas entradas linearmente separáveis, pois podem implementar apenas hiperplanos em seu espaço de entrada . Os hiperplanos podem classificar os dados de maneira ideal quando as entradas são condicionalmente independentes.
Para mostrar isso, eles derivam o seguinte. Usando o teorema de Bayes, eles obtêm:
(1)
Onde é a entrada, y é a classe e y ' é a classe prevista (presumo que y ' não definido). Continuando, eles afirmam que:
(2)
Onde é a dimensão de entrada e n Não tenho certeza (novamente, ambos são indefinido). Considerando um neurônio sigmoidal, com a função de ativação sigmóide σ ( u ) = 1 e pré-ativaçãou, depois de inserir (2) em (1) obtemos os valores ideais de pesowj=logp(xj|y) eb=lSgp(y) , quando os valores de entradahj=np(xj).
Agora vamos às minhas perguntas. Entendo como inserir (2) em (1) leva ao peso ideal e aos valores de entrada . O que eu não entendo, no entanto, é o seguinte:
- Como (1) é derivado usando o teorema de Bayes?
- Como é (2) derivado? O que é ? Qual é o significado disso? Suponho que tenha algo a ver com independência condicional
- Mesmo que as dimensões de x sejam condicionalmente independentes, como se pode afirmar que é igual à sua probabilidade escalada? (ou seja, como você pode declarar ?)
EDIT: A variável é uma variável de classe binária. A partir disso, assumo que y ' é a "outra" classe. Isso resolveria a questão 1. Você concorda?
Respostas:
Desculpe pelos detalhes que faltam em nosso breve artigo, mas essas relações e conexões entre o teste da Razão de Verossimilhança e os neurônios sigmoidais certamente não são novas e podem ser encontradas em livros didáticos (por exemplo, Bishop 2006). Em nosso artigo, 'N' é a dimensão de entrada e 'n' é o tamanho da amostra de teste (que na verdade é traduzida para o SNR de entrada sob a suposição de que o SNR cresce como sqrt (n)). A conexão com a função sigmoidal é feita através da regra de Bayes, como a parte posterior da classe. Nada no restante do artigo e nosso artigo mais recente e mais importante de 2017 realmente depende disso.
Naftali Tishby
fonte
Por 1
e a partir daí é apenas a propriedade do logaritmo chegar à forma final (deve estar suficientemente claro nesse ponto, deixe-me saber se não).
fonte
Essa é uma configuração de modelo em que os autores estão usando uma forma especial do teorema de Bayes que se aplica quando você tem uma variável binária de interesse. Eles primeiro derivam essa forma especial do teorema de Bayes como Equação (1) e depois mostram que a condição na Equação (2) os leva à forma linear especificada para sua rede. É importante observar que a última equação não é derivada de condições anteriores - é uma condição para a forma linear que eles estão usando para sua rede.
Sob essa condição, obtemos, portanto, a forma posterior:
fonte