É bastante intuitivo que a maioria das arquiteturas / topologias de redes neurais não seja identificável. Mas quais são alguns resultados bem conhecidos no campo? Existem condições simples que permitem / impedem a identificação? Por exemplo,
- todas as redes com funções de ativação não lineares e mais de uma camada oculta não são identificáveis
- todas as redes com mais de duas unidades ocultas não são identificáveis
Ou coisas assim. NOTA : Não estou dizendo que essas condições impedem a identificabilidade (embora elas me pareçam boas candidatas). Eles são apenas exemplos do que quero dizer com "condições simples".
Se ajudar a refinar a questão, fique à vontade para considerar apenas as arquiteturas de feed-forward e recorrentes. Se isso ainda não for suficiente, eu ficaria satisfeito com uma resposta que abrange pelo menos uma arquitetura entre MLP, CNN e RNN. Eu dei uma olhada rápida na Web, mas parece que a única discussão que pude encontrar foi no Reddit. Vamos lá pessoal, podemos fazer melhor que o Reddit ;-)
Respostas:
Os FFNs lineares de camada única não são identificados
A pergunta como foi editada para excluir este caso; Eu mantenho aqui porque entender o caso linear é um exemplo simples do fenômeno de interesse.
Considere uma rede neural avançada com 1 camada oculta e todas as ativações lineares. A tarefa é uma tarefa de regressão OLS simples.
para alguma escolha de de forma apropriada. são os pesos de entrada para ocultos e são os pesos de ocultos para saída.A BA , B UMA B
Claramente, os elementos das matrizes de peso não são identificáveis em geral, uma vez que existem inúmeras configurações possíveis para as quais dois pares de matrizes têm o mesmo produto.A , B
Os FFNs de camada única não linear ainda não foram identificados
Construindo a partir do FFN linear de camada única, também podemos observar a não identificação no FFN não linear de camada única.
Como exemplo, adicionar uma não linearidade a qualquer uma das ativações lineares cria uma rede não linear. Essa rede ainda não foi identificada porque, para qualquer valor de perda, uma permutação dos pesos de dois (ou mais) neurônios em uma camada e seus neurônios correspondentes na próxima camada também resultará no mesmo valor de perda.tanh
Em geral, redes neurais não são identificadas
Podemos usar o mesmo raciocínio para mostrar que as redes neurais não são identificadas em todas, exceto em parametrizações muito particulares.
Por exemplo, não há nenhuma razão específica para que filtros convolucionais devam ocorrer em qualquer ordem específica. Também não é necessário que os filtros convolucionais possuam qualquer sinal específico, uma vez que os pesos subsequentes podem ter o sinal oposto para "inverter" essa escolha.
Da mesma forma, as unidades em uma RNN podem ser permutadas para obter a mesma perda.
Veja também: Podemos usar o MLE para estimar os pesos da rede neural?
fonte
fonte