Qual a importância da expansão da base para redes profundas?

8

Se as redes neurais profundas são consideradas aproximadores de funções universais, a expansão de bases é realmente necessária? Ou isso seria específico do caso? Por exemplo, se alguém tiver três variáveis X quantitativas, haveria alguma vantagem em expandir o número de variáveis introduzindo interações, polinômios etc.? Isso parece ter uma boa utilidade em, por exemplo, RFs e SVM, mas não tenho certeza se essa seria uma boa estratégia para redes neurais.

Se isso for talvez muito amplo ou vago, alguém poderia me indicar algumas informações pertinentes sobre expansão de base e engenharia de recursos no contexto de redes profundas?

neural-networks deep-learning feature-construction srhoades10
fonte

8

A idéia da rede neural profunda é que ela pode fazer a engenharia de recursos automaticamente para nós. (Veja o primeiro capítulo do livro de aprendizado profundo .) Eu recomendo fortemente que você leia o primeiro capítulo.

Fazer a expansão da base não é realmente necessário e usado de maneira incomum. Lembre-se de que, a rede profunda geralmente usa recursos brutos como entradas, para imagens com (pelo menos) milhares de pixels, também não é possível fazer a expansão da base (por exemplo, expansão polinomial de ordem superior) efetivamente antes de alimentar o neural rede.

De fato, existem algumas operações na rede neural profunda que podem ser vistas como expansão da base.

A camada de convolução pode ser vista como a engenharia de recursos na expansão da base de Fourier. Veja minha pergunta: qual é a intuição por trás da rede neural convolucional?
O ReLU pode ser visto como um ajuste linear por partes (base de spline).

Haitao Du
fonte

1

Acordado. Eu acrescentaria que, se o modelador tiver um senso a priori da forma funcional da relação preditor-resposta, provavelmente seria melhor evitar completamente as camadas ocultas; ou seja, regressão ou classificação "baunilha". Além disso, acho que a adição de parâmetros de expansão de base torna essa abordagem altamente suscetível à super adaptação, e as técnicas de regularização típicas em redes neurais não farão nada contra a mineração de ruído (intencional ou não) desses parâmetros.

21419 Josh

Obrigado @ hxd1011 e Josh, esses são pontos úteis. Eu sabia que as funções de ativação introduzem a não linearidade nos NNs, mas suponho que realmente não pensei sobre como isso cuida da preocupação comum nas configurações de regressão de rotina, tentando "manualmente" introduzir efeitos não lineares.

precisa saber é o seguinte

6

Muitos modelos de aprendizado profundo aprendem seus próprios recursos a partir dos dados brutos de entrada durante o treinamento (por exemplo, Redes Neurais Convolucionais 2D para imagens). Portanto, em muitos casos, você nem precisa se preocupar em passar variáveis explicitamente para o seu modelo. Em alguns outros casos, você ainda precisa de recursos, mas apenas recursos principais (por exemplo, palavras na PNL). Esses recursos são representados como vetores em um espaço de incorporação que captura semelhanças (por exemplo, que 'presidente' é próximo a 'Obama'). O espaço de incorporação é proveniente de pré-treinamento não supervisionado (word2vec, luva) ou é inicializado aleatoriamente, e os vetores são ajustados durante o treinamento via retropropagação. A arquitetura da rede é responsável por aprender as combinações de recursos, como a diferença entre 'não é ruim, é muito bom' e 'não é bom,

O parágrafo 'Combinações de recursos' da Seção 3 de Goldberg, Y. (2015). Uma cartilha sobre modelos de redes neurais para processamento de linguagem natural. Journal of Artificial Intelligence Research, 57, 345-420. muito bem explica isso (eu realmente recomendo a leitura de toda a seção 3, é excelente):

Os recursos de combinação são cruciais nos modelos lineares, porque introduzem mais dimensões na entrada, transformando-a em um espaço onde os pontos de dados estão mais próximos de serem separáveis linearmente. Por outro lado, o espaço de combinações possíveis é muito grande e o designer de recursos precisa gastar muito tempo criando um conjunto eficaz de combinações de recursos. Uma das promessas dos modelos de redes neurais não lineares é que é preciso definir apenas os principais recursos. Espera-se que a não linearidade do classificador, conforme definida pela estrutura da rede, procure encontrar as combinações indicativas de recursos, aliviando a necessidade de engenharia de combinação de recursos.

Antoine
fonte

Qual a importância da expansão da base para redes profundas?

Respostas: