RNs regularizados bayesianos em relação aos RN clássicos

Eu já vi alguns artigos de pesquisa que afirmam que as redes neurais clássicas geralmente carecem de capacidade de generalização satisfatória, o que geralmente resulta em previsões imprecisas, e as RNAs regularizadas bayesianas (BRANNs) são mais robustas que as redes de retropropagação padrão e podem reduzir ou eliminar o necessidade de longa validação cruzada.

No entanto, esses artigos não fornecem justificativas / justificativas adequadas para esta reivindicação.

De que maneiras ou com quais objetivos específicos os BRANNs são melhores que os NNs clássicos? E porque?

bayesian neural-networks pnp
fonte

Respostas:

O principal problema com as redes neurais tende a impedir o excesso de ajuste. A regularização bayesiana (que restringe a magnitude dos pesos) é uma abordagem para isso; a estabilização estrutural (isto é, restringir o número de nós e / ou pesos ocultos é outra). Nenhuma das abordagens é uma panacéia, e geralmente uma combinação de regularização e estabilização estrutural é melhor (o que significa que você precisa de validação cruzada novamente para selecionar a arquitetura de rede - usar a evidência bayesiana para isso é uma má ideia, pois a evidência é enviesada como resultado. de seu uso no ajuste dos parâmetros de regularização e não confiável se houver algum erro de especificação do modelo). O que funciona melhor depende essencialmente do problema, e a melhor maneira de descobrir é tentar os dois e ver (use, por exemplo, validação cruzada para estimar o desempenho de maneira imparcial).

Além disso, a regularização não precisa ser bayesiana; você pode escolher quanto regularizar a rede usando a validação cruzada. Um dos problemas com os métodos bayesianos é que eles podem fornecer resultados ruins se o modelo for especificado incorretamente; nesse caso, os métodos de regularização baseados em validação cruzada podem ser mais robustos.

Outro ponto importante é que nem todas as formulações de redes neurais bayesianas são iguais. A estrutura de evidências do MacKay tende a não funcionar muito bem para problemas de classificação, pois a aproximação de Laplace que ele usa não funciona muito bem para distribuições posteriores distorcidas dos pesos. É provável que a abordagem MCMC de Radford Neal funcione melhor para essas tarefas, mas é computacionalmente cara e avaliar a convergência etc. não é tão simples.

No entanto, os modelos de redes neurais são bastante difíceis de acertar e, na prática, é mais fácil obter um bom desempenho de generalização dos métodos do kernel ou dos processos Gaussianos, então eu os usaria na maioria das tarefas, especialmente se houver relativamente poucos dados de treinamento.

Fiz um estudo empírico muito extenso sobre isso recentemente, mas preciso encontrar um periódico que aceite estudos empíricos de interesse para os profissionais, mas com muito pouco conteúdo de pesquisa novo.

Dikran Marsupial
fonte

α

$\alpha$

β

$\beta$

@YtsendeBoer A evidência (probabilidade marginal) é avaliada em um conjunto finito de dados; portanto, seu valor depende da amostra em particular, e um desses possui um componente que é essencialmente apenas ruído. Se você ajustar o modelo otimizando as evidências, parte da melhoria aparente será devida ao ajuste do ruído na probabilidade marginal, bem como nas mudanças que realmente melhoram o desempenho. Assim, após a otimização, a evidência fornece uma visão otimista do desempenho real do modelo e, portanto, não é um bom guia para, por exemplo, a otimização da estrutura posteriormente.

Dikran marsupiais

α

$\alpha$

β

$\beta$

a l p h a

$alpha$

b e t a

$beta$

Você usa os BRANNs para os mesmos fins que as RNAs regulares, geralmente classificação e regressão. Como diz Dikran Marsupial, eles são melhores porque são mais robustos contra o ajuste excessivo e permitem que você trabalhe com maior número de neurônios sem executar o ajuste excessivo. Além disso, fornece barras de erro nas saídas, ou seja, você mede a confiança de cada uma das saídas.

No entanto, novas técnicas, como o abandono e o maxout, parecem ter superado essa técnica, porque são mais fáceis de usar e produzem melhores resultados. Aqui, o abandono é mostrado para executar o dimensionamento e a regularização em certo sentido.

Ainda assim, se você estiver interessado nos detalhes, verifique os trabalhos de David MacKay (o cara que venceu algumas competições com essa técnica).

jpmuc
fonte

Você realmente não explicar como BRANNs ajuda a prevenir overfitting, etc.

nbro