O teorema da aproximação universal para redes neurais vale para qualquer função de ativação (sigmóide, ReLU, Softmax, etc ...) ou é limitado a funções sigmóides?
Atualização: Como o shimao aponta nos comentários, ele não se aplica a absolutamente nenhuma função. Então, para qual classe de funções de ativação ele se aplica?
neural-networks
approximation
Skander H.
fonte
fonte
Respostas:
O artigo da wikipedia possui uma declaração formal.
fonte
Redes de feedforward multicamadas é uma referência publicada que aborda o problema. As funções de ativação polinomial não possuem a propriedade de aproximação universal.
O NN de pré-impressão com funções de ativação ilimitadas abrange muitas funções de ativação. Olha apenas para a camada oculta NN única. É pesado na análise de Fourier.
Enfatizo que a segunda referência é uma pré-impressão, porque não posso garantir sua precisão. Leshno et alt 1993 é uma publicação revisada.
fonte
O artigo de Kurt Hornik, de 1991, "Approximation Capabilities of Multilayer Feedforward Networks", prova que "as redes de feedforward padrão multicamadas com apenas uma camada oculta e função arbitrária de ativação limitada e não constante são aproximadores universais em relação aos critérios de desempenho , para medidas arbitrárias do ambiente de entrada finita , desde que apenas muitas unidades ocultas estejam disponíveis. " Em outras palavras, a hipótese de que a função de ativação é limitada e não constante é suficiente para aproximar quase qualquer função, pois podemos usar quantas unidades ocultas quisermos na rede neural. O documento deve estar disponível aqui: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdfLP(μ) μ
fonte