O teorema da aproximação universal para redes neurais vale para qualquer função de ativação?

8

O teorema da aproximação universal para redes neurais vale para qualquer função de ativação (sigmóide, ReLU, Softmax, etc ...) ou é limitado a funções sigmóides?

Atualização: Como o shimao aponta nos comentários, ele não se aplica a absolutamente nenhuma função. Então, para qual classe de funções de ativação ele se aplica?

Skander H.
fonte
1
Eu acredito que vale para todos aqueles que você listou, mas não vale para qualquer função de ativação arbitrária (considere f (x) = 0)
Shimao
Leia o artigo de Cybenko (1989). A função tem que ser compactos necessidades ou seja para ser definido em subconjuntos compactos de R ^ n
Snehanshu Saha
Se houver muitas descontinuidades finitas, ele também poderá ser tratado com a adição de mais camadas ocultas. Também funciona para o SBAF.
Snehanshu Saha 3/09/19
Isso faz pouco sentido, porque todas as funções definidas em são definidas em subconjuntos compactos! Rn
whuber

Respostas:

7

O artigo da wikipedia possui uma declaração formal.

Seja uma função não constante, limitada e contínua.φ

Matthew Drury
fonte
8
Isso abrange sigmóide e softmax, mas não ReLU. De acordo com este documento, a propriedade também vale para algumas funções ilimitadas como ReLU e outras.
jodag
3

Redes de feedforward multicamadas é uma referência publicada que aborda o problema. As funções de ativação polinomial não possuem a propriedade de aproximação universal.

O NN de pré-impressão com funções de ativação ilimitadas abrange muitas funções de ativação. Olha apenas para a camada oculta NN única. É pesado na análise de Fourier.

Enfatizo que a segunda referência é uma pré-impressão, porque não posso garantir sua precisão. Leshno et alt 1993 é uma publicação revisada.

VictorZurkowski
fonte
2

O artigo de Kurt Hornik, de 1991, "Approximation Capabilities of Multilayer Feedforward Networks", prova que "as redes de feedforward padrão multicamadas com apenas uma camada oculta e função arbitrária de ativação limitada e não constante são aproximadores universais em relação aos critérios de desempenho , para medidas arbitrárias do ambiente de entrada finita , desde que apenas muitas unidades ocultas estejam disponíveis. " Em outras palavras, a hipótese de que a função de ativação é limitada e não constante é suficiente para aproximar quase qualquer função, pois podemos usar quantas unidades ocultas quisermos na rede neural. O documento deve estar disponível aqui: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdfLP(μ)μ

matemático
fonte