Podemos usar o MLE para estimar os pesos da rede neural?

23

Comecei a estudar sobre estatísticas e modelos. Atualmente, meu entendimento é que usamos o MLE para estimar os melhores parâmetros para um modelo. No entanto, quando tento entender como as redes neurais funcionam, parece que elas geralmente usam outra abordagem para estimar os parâmetros. Por que não usamos o MLE ou é possível usá-lo?

tor
fonte

Respostas:

16

Estimativas MLE de pesos de redes neurais artificiais (RNA) certamente são possíveis ; de fato, é inteiramente típico. Para problemas de classificação, uma função objetivo padrão é a entropia cruzada, que é a mesma que a probabilidade logarítmica negativa de um modelo binomial. Para problemas de regressão, é utilizado um erro quadrado residual, que é paralelo à regressão MLE da OLS.

Mas há alguns problemas em supor que as boas propriedades dos MLEs derivados nas estatísticas clássicas também se aplicam aos MLEs de redes neurais.

  1. Existe um problema geral com a estimativa de RNA: existem muitas soluções simétricas para até RNAs de camada única. A reversão dos sinais dos pesos para a camada oculta e a reversão dos sinais dos parâmetros de ativação da camada oculta têm a mesma probabilidade. Além disso, você pode permutar qualquer um dos nós ocultos e essas permutações também têm a mesma probabilidade. Isso é consequente na medida em que você deve reconhecer que está desistindo da identificabilidade. No entanto, se a identificação não é importante, você pode simplesmente aceitar que essas soluções alternativas são apenas reflexos e / ou permutações uma da outra.

    Isso contrasta com os usos clássicos do MLE nas estatísticas, como uma regressão do OLS: o problema do OLS é convexo e estritamente convexo quando a matriz de design está na classificação completa. Uma forte convexidade implica que exista um minimizador único e único.

  2. As RNAs tendem a superestimar os dados ao usar uma solução irrestrita. Os pesos tenderão a fugir da origem para valores implausivelmente grandes que não generalizam bem ou prevêem novos dados com muita precisão. A imposição de decaimento de peso ou outros métodos de regularização tem o efeito de reduzir as estimativas de peso para zero. Isso não resolve necessariamente o problema de indeterminação de (1), mas pode melhorar a generalização da rede.

  3. A função de perda não é convexa e a otimização pode encontrar soluções localmente ideais que não são globalmente ideais. Ou talvez essas soluções sejam pontos de sela, onde alguns métodos de otimização são interrompidos. Os resultados deste artigo descobrem que os métodos modernos de estimativa contornam esse problema.

  4. Em um cenário estatístico clássico, métodos de ajuste penalizado, como rede elástica, regularização ou podem tornar convexo um problema de classificação deficiente (isto é, não convexa). Esse fato não se estende à configuração da rede neural, devido ao problema de permutação em (1). Mesmo se você restringir a norma de seus parâmetros, permutar pesos ou sinais de inversão simétrica não mudará a norma do vetor de parâmetro; nem mudará a probabilidade. Portanto, a perda permanecerá a mesma para os modelos permutados ou refletidos e o modelo ainda não será identificado.eu1eu2

Sycorax diz restabelecer Monica
fonte
2
Eu imploro para diferir com o que você diz. Os diferentes mínimos locais decorrentes de simetrias são todos da mesma qualidade, portanto você não precisa se preocupar com isso. O que você provavelmente quer dizer é que as RNAs não possuem funções de perda convexa, o que torna a otimização mais envolvida e não garante encontrar um ótimo global. No entanto, recentemente houve algumas evidências de que as RNAs realmente não têm muitos problemas com mínimos locais, mas sim problemas com pontos de sela. Veja, por exemplo, arxiv.org/abs/1412.6544 .
bayerj
11

Em problemas de classificação, maximizar a probabilidade é a maneira mais comum de treinar uma rede neural (modelos supervisionados e não supervisionados).

Na prática, geralmente minimizamos a probabilidade logarítmica negativa (MLE equivalente). A única restrição para usar a probabilidade de log negativa é ter uma camada de saída que possa ser interpretada como uma distribuição de probabilidade. Uma camada de saída softmax é comumente usada para isso. Observe que na comunidade de redes neurais, a probabilidade de log negativa é algumas vezes referida como entropia cruzada. É claro que termos de regularização podem ser adicionados (e às vezes podem ser interpretados como distribuições anteriores sobre os parâmetros, nesse caso, estamos procurando o máximo a posteriori ( MAP )).

AdeB
fonte