Regressão linear multivariada vs rede neural?

54

Parece que é possível obter resultados semelhantes a uma rede neural com regressão linear multivariada em alguns casos, e a regressão linear multivariada é super rápida e fácil.

Sob quais circunstâncias as redes neurais podem dar melhores resultados do que a regressão linear multivariada?

Hugh Perkins
fonte

Respostas:

28

As redes neurais podem, em princípio, modelar não linearidades automaticamente (consulte o teorema da aproximação universal ), que você precisaria modelar explicitamente usando transformações (splines etc.) em regressão linear.

A ressalva: a tentação de se ajustar demais pode ser (até) mais forte nas redes neurais do que na regressão, pois adicionar camadas ou neurônios ocultos parece inofensivo. Portanto, tenha muito mais cuidado com o desempenho de previsão fora da amostra.

S. Kolassa - Restabelecer Monica
fonte
Está bem. Acho que uma pergunta em minha mente é: até que ponto posso replicar um comportamento semelhante, aumentando meus dados de entrada com termos quadráticos e cúbicos?
Hugh Perkins
3
Na verdade, você provavelmente pode aproximar NNs com regressores transformados adequadamente em uma regressão linear o mais próximo possível (e vice-versa). Porém, é melhor que práticas quadráticas e cúbicas - eu recomendo vivamente o livro de Harrell "Estratégias de Modelagem de Regressão".
S. Kolassa - Restabelece Monica
Está bem. É razoável supor que o tempo de treinamento será mais rápido para a regressão linear nos dados transformados ou os tempos de treinamento serão aproximadamente semelhantes? A solução para a regressão linear em dados transformados terá um máximo global único ou terá muito mínimo local quanto às redes neurais? (Edit: Eu acho que não importa como as entradas são transformados, a solução para a regressão linear é apenas o pseudoinverse da matriz projeto multiplicado por alguma coisa, alguma coisa e, portanto, é sempre única nem singular?)
Hugh Perkins
2
Obviamente, os tempos de treinamento dependerão das dimensões de entrada (poucas / muitas observações, poucos / muitos preditores). A regressão linear envolve uma única (pseudo-) inversa (sim, singularidade / singularidade, mesmo com os regressores transformados retidos), enquanto os NNs são normalmente treinados de maneira iterativa, mas as iterações não envolvem inversões de matriz, portanto, cada iteração é mais rápida. interrompa o treinamento com base em algum critério criado para impedir que você se ajuste demais.
S. Kolassa - Restabelece Monica
11
@Yamcha: minha compreensão do teorema da aproximação universal é que a dimensionalidade em princípio não importa. (Obviamente, este é um resultado assintótico. Eu esperaria que você precisasse de quantidades horrendas de dados para o NN ser melhor do que uma regressão polinomial afinada. Começa a soar como Deep Learning ...)
S. Kolassa - Restabelece Monica
16

Você mencionou regressão linear. Isso está relacionado à regressão logística , que possui um algoritmo de otimização rápida semelhante. Se você tiver limites nos valores de destino, como em um problema de classificação, poderá visualizar a regressão logística como uma generalização da regressão linear.

As redes neurais são estritamente mais gerais do que a regressão logística nas entradas originais, uma vez que corresponde a uma rede de camada ignorada (com conexões conectando diretamente as entradas às saídas) com nós ocultos.0

Quando você adiciona recursos como , isso é semelhante à escolha de pesos para alguns nós ocultos em uma única camada oculta. Não existe exatamente uma correspondência , pois modelar uma função como com sigmóides pode levar mais de um neurônio oculto. Quando você treina uma rede neural, permite que ela encontre seus próprios pesos escondidos de entrada para ocultos, com o potencial de ser melhor. Também pode levar mais tempo e pode ser inconsistente. Você pode começar com uma aproximação à regressão logística com recursos extras e treinar os pesos de entrada para ocultos lentamente, e isso deve fazer melhor do que a regressão logística com recursos extras eventualmente. Dependendo do problema, o tempo de treinamento pode ser insignificante ou proibitivo. 1 - 1 x 3x311x3

Uma estratégia intermediária é escolher um grande número de nós aleatórios, semelhante ao que acontece quando você inicializa uma rede neural, e corrigir os pesos de entrada para oculto. A otimização sobre os pesos * à saída permanece linear. Isso é chamado de máquina de aprendizado extremo . Funciona pelo menos tão bem quanto a regressão logística original.

Douglas Zare
fonte
11
"Uma estratégia intermediária é escolher um grande número de nós aleatórios, semelhante ao que acontece quando você inicializa uma rede neural, e consertar os pesos de entrada para ocultos. A otimização sobre os pesos de * para saída permanece linear". => você quer dizer que haverá um único máximo global para a solução neste caso?
Hugh Perkins
11
Para uma escolha aleatória genérica de nós ocultos aleatórios, sim.
Douglas Zare
2
ótimo contexto de pós-fornecimento para [LR, LogR, NN, ELM]. Seu comentário sobre o LogR ser um NN de camada ignorada parece óbvio depois de ser destacado, mas é uma boa ideia.
Javadba
3

A regressão linear visa separar os dados que são separáveis ​​linearmente; sim, você pode usar polinômios adicionais de terceiro grau, mas dessa forma você indicou novamente algumas suposições sobre os dados que você possui desde que você define a estrutura da função objetivo. Na rede neural. geralmente você tem uma camada de entrada que cria os separadores lineares para os dados que você possui e a camada oculta ANDs as regiões que limitam algumas classes e a última camada ORs todas essas regiões. Dessa maneira, todos os dados que você possui podem ser classificados de maneira não linear, e também todo esse processo com pesos aprendidos internamente e funções definidas. Além disso, aumentar o número do recurso para regressão linear se opõe a "Maldição da dimensionalidade". Além disso, algumas aplicações precisam de resultados mais probabilísticos do que números constantes como saída.

erogol
fonte