Parece que é possível obter resultados semelhantes a uma rede neural com regressão linear multivariada em alguns casos, e a regressão linear multivariada é super rápida e fácil.
Sob quais circunstâncias as redes neurais podem dar melhores resultados do que a regressão linear multivariada?
fonte
Você mencionou regressão linear. Isso está relacionado à regressão logística , que possui um algoritmo de otimização rápida semelhante. Se você tiver limites nos valores de destino, como em um problema de classificação, poderá visualizar a regressão logística como uma generalização da regressão linear.
As redes neurais são estritamente mais gerais do que a regressão logística nas entradas originais, uma vez que corresponde a uma rede de camada ignorada (com conexões conectando diretamente as entradas às saídas) com nós ocultos.0
Quando você adiciona recursos como , isso é semelhante à escolha de pesos para alguns nós ocultos em uma única camada oculta. Não existe exatamente uma correspondência , pois modelar uma função como com sigmóides pode levar mais de um neurônio oculto. Quando você treina uma rede neural, permite que ela encontre seus próprios pesos escondidos de entrada para ocultos, com o potencial de ser melhor. Também pode levar mais tempo e pode ser inconsistente. Você pode começar com uma aproximação à regressão logística com recursos extras e treinar os pesos de entrada para ocultos lentamente, e isso deve fazer melhor do que a regressão logística com recursos extras eventualmente. Dependendo do problema, o tempo de treinamento pode ser insignificante ou proibitivo. 1 - 1 x 3x3 1−1 x3
Uma estratégia intermediária é escolher um grande número de nós aleatórios, semelhante ao que acontece quando você inicializa uma rede neural, e corrigir os pesos de entrada para oculto. A otimização sobre os pesos * à saída permanece linear. Isso é chamado de máquina de aprendizado extremo . Funciona pelo menos tão bem quanto a regressão logística original.
fonte
A regressão linear visa separar os dados que são separáveis linearmente; sim, você pode usar polinômios adicionais de terceiro grau, mas dessa forma você indicou novamente algumas suposições sobre os dados que você possui desde que você define a estrutura da função objetivo. Na rede neural. geralmente você tem uma camada de entrada que cria os separadores lineares para os dados que você possui e a camada oculta ANDs as regiões que limitam algumas classes e a última camada ORs todas essas regiões. Dessa maneira, todos os dados que você possui podem ser classificados de maneira não linear, e também todo esse processo com pesos aprendidos internamente e funções definidas. Além disso, aumentar o número do recurso para regressão linear se opõe a "Maldição da dimensionalidade". Além disso, algumas aplicações precisam de resultados mais probabilísticos do que números constantes como saída.
fonte