Por que não apenas despejar as redes neurais e o aprendizado profundo? [fechadas]

25

Problema fundamental com aprendizagem profunda e redes neurais em geral.

  1. As soluções que se encaixam nos dados de treinamento são infinitas. Não temos uma equação matemática precisa que seja satisfeita apenas por uma única e que possamos dizer que generaliza melhor. Simplesmente falando, não sabemos o que generaliza melhor.

  2. Otimizar pesos não é um problema convexo; portanto, nunca sabemos que acabamos com um mínimo global ou local.

Então, por que não apenas despejar as redes neurais e procurar um modelo melhor de ML? Algo que entendemos e algo consistente com um conjunto de equações matemáticas? Linear e SVM não têm essas desvantagens matemáticas e são totalmente consistentes com um conjunto de equações matemáticas. Por que não pensar nas mesmas linhas (embora não precise ser linear) e criar um novo modelo de ML melhor do que Linear e SVM e redes neurais e aprendizado profundo?

Rajesh Dachiraju
fonte
37
Se você encontrar, as pessoas vão.
Matthew Drury
23
"Por que não inventa ...?" Você não acreditaria em quantos pesquisadores estão ocupados tentando fazer exatamente isso! Eles apenas não tiveram sucesso até agora.
precisa saber é o seguinte
31
"Todos os modelos estão errados, mas alguns são úteis" e nns são certamente úteis.
josh
15
@RajeshDachiraju - é um idioma antigo, mas talvez eu tenha sido um pouco vago. Você perguntou por que não jogar fora os NNs porque eles não são perfeitos. Minha resposta é que eles não são perfeitos, mas são ÚTEIS. As pessoas as usam para dirigir carros, traduzir idiomas estrangeiros, marcar vídeos, na conservação de baleias e até aplicar esses filtros de snapchat com orelhas de cachorro nas suas fotos! por exemplo, eles trabalho, portanto, continuar a usá-los :)
josh
13
Você também sabe o que está errado: mecânica newtoniana. Mecânica quântica. Relatividade. Toda a física está errada (não há um único modelo descrevendo tudo, todos têm suas falhas). A química está completamente errada com tantas coisas (descrever um átomo é sempre apenas uma boa aproximação, mas nunca exata). A única coisa exatamente verdadeira no mundo é matemática. Matemática pura. Tudo o resto chega perto da resposta certa. Devemos jogar fora o resto? (a partir do seu computador construído com leis erradas?). Não. Novamente: todos os modelos estão errados, mas alguns são úteis.
usar o seguinte código

Respostas:

48
  1. Não é possível saber qual solução generaliza melhor é um problema, mas não deve nos impedir de usar uma boa solução. Os próprios humanos geralmente não sabem o que generaliza melhor (considere, por exemplo, teorias unificadoras concorrentes da física), mas isso não nos causa muitos problemas.

  2. Foi demonstrado que é extremamente raro o treinamento falhar por causa dos mínimos locais. A maioria dos mínimos locais em uma rede neural profunda tem valor próximo do mínimo global, portanto isso não é um problema. fonte

Mas a resposta mais ampla é que você pode falar o dia inteiro sobre não-conveniência e seleção de modelos, e as pessoas ainda usarão redes neurais simplesmente porque funcionam melhor do que qualquer outra coisa (pelo menos em coisas como classificação de imagens).

É claro que também há pessoas argumentando que não devemos ficar muito focados nas CNNs, como a comunidade estava focada nos SVMs há algumas décadas atrás, e continuando procurando a próxima grande novidade. Em particular, acho que me lembro de Hinton lamentando a eficácia das CNNs como algo que pode dificultar a pesquisa. post relacionado

shimao
fonte
1
Eu gosto particularmente do último parágrafo.
Rajesh Dachiraju
10
Você tem uma citação para o ponto 2?
DrMcCleod 11/08/19
@DrMcCleod: para mim, o ponto 2 parece mais com o jingoism. Apenas em um sentido mais leve.
Rajesh Dachiraju
6
@DrMcCleod, há muito trabalho que sugere que os mínimos locais estão muito próximos dos mínimos globais e que os pontos de sela são o problema. Veja este artigo para uma discussão sobre pontos de sela e este artigo sobre por que os mínimos locais não são necessariamente ruins.
JLD
1
Eu preferiria apenas um teatro, eu espero. Mas suponha que eu saiba que desfrutarei de praticamente qualquer filme quase tanto quanto o que realmente quero assistir. Então não ficarei desapontado quando houver 10 salas de cinema e tenho que escolher uma ao acaso, porque sei que qualquer cinema e cinema me deixará satisfeito.
Shimao
14

Como os comentários à sua pergunta apontam, muitas pessoas estão trabalhando para encontrar algo melhor. Gostaria de responder a essa pergunta expandindo o comentário deixado por @josh


Todos os modelos estão errados, mas alguns são úteis (Wiki)

A afirmação acima é uma verdade geral usada para descrever a natureza dos modelos estatísticos. Usando os dados que temos disponíveis, podemos criar modelos que nos permitem fazer coisas úteis, como aproximar um valor previsto.

Tomemos, por exemplo, regressão linear

Usando várias observações, podemos ajustar um modelo para nos fornecer um valor aproximado para uma variável dependente, dado qualquer valor para as variáveis ​​independentes.

Burnham, KP; Anderson, DR (2002), Seleção de Modelos e Multimodelo> Inferência: Uma Abordagem Teórico-da Informação Prática (2ª ed.):

"Um modelo é uma simplificação ou aproximação da realidade e, portanto, não refletirá toda a realidade. ... Box observou que" todos os modelos estão errados, mas alguns são úteis ". Embora um modelo nunca possa ser" verdade ", um modelo pode ser classificado de muito útil, útil, até um pouco útil para, finalmente, essencialmente inútil ".

Os desvios do nosso modelo (como pode ser visto na imagem acima) parecem aleatórios, algumas observações estão abaixo da linha e outras acima, mas nossa linha de regressão mostra uma correlação geral. Embora os desvios em nosso modelo pareçam aleatórios, em cenários realistas, haverá outros fatores em jogo que causam esse desvio. Por exemplo, imagine assistir carros enquanto eles dirigem por um cruzamento onde devem virar à esquerda ou à direita para continuar; os carros não seguem um padrão específico. Embora possamos dizer que a direção dos carros é completamente aleatória, todo motorista chega ao cruzamento e, nesse momento, toma uma decisão aleatória de qual caminho seguir? Na realidade, eles provavelmente estão indo para algum lugar específico por um motivo específico e, sem tentar parar cada carro para perguntar sobre seu raciocínio, só podemos descrever suas ações como aleatórias.

Onde somos capazes de ajustar um modelo com desvio mínimo, quão certo podemos ser que uma variável desconhecida, despercebida ou incomensurável, em algum momento, não atire nosso modelo? O bater das asas de uma borboleta no Brasil desencadeia um tornado no Texas?

O problema com o uso dos modelos Linear e SVN que você mencionou sozinho é que somos obrigados a observar manualmente nossas variáveis ​​e como elas se afetam. Precisamos então decidir quais variáveis ​​são importantes e escrever um algoritmo específico da tarefa. Isso pode ser simples se tivermos apenas algumas variáveis, mas e se tivéssemos milhares? E se quiséssemos criar um modelo generalizado de reconhecimento de imagem, isso poderia ser alcançado realisticamente com essa abordagem?

O Deep Learning e as redes neurais artificiais (RNAs) podem nos ajudar a criar modelos úteis para grandes conjuntos de dados que contêm grandes quantidades de variáveis ​​(por exemplo, bibliotecas de imagens). Como você mencionou, há um número incompreensível de soluções que podem ajustar os dados usando as RNAs, mas esse número é realmente diferente da quantidade de soluções que precisaríamos para nos desenvolver por tentativa e erro?

A aplicação de RNAs faz grande parte do trabalho para nós, podemos especificar nossas entradas e resultados desejados (e ajustá-los posteriormente para fazer melhorias) e deixar que a ANN decida a solução. É por isso que as RNAs são frequentemente descritas como "caixas pretas" . A partir de uma determinada entrada, eles produzem uma aproximação, no entanto (em termos gerais) essas aproximações não incluem detalhes de como foram aproximadas.

E, portanto, tudo se resume ao problema que você está tentando resolver, pois o problema ditará qual abordagem de modelo é mais útil. Os modelos não são absolutamente precisos e, portanto, sempre há um elemento de estar "errado"; no entanto, quanto mais precisos forem os resultados, mais úteis eles serão. Ter mais detalhes nos resultados de como a aproximação foi feita também pode ser útil, dependendo do problema, pode até ser mais útil do que maior precisão.

Se, por exemplo, você está calculando a pontuação de crédito de uma pessoa, usar regressão e SVMs fornece cálculos que podem ser melhor explorados. Ser capaz de ajustar o modelo diretamente e explicar aos clientes o efeito que as variáveis ​​independentes têm sobre sua pontuação geral é muito útil. Uma RNA pode ajudar no processamento de grandes quantidades de variáveis ​​para obter uma pontuação mais precisa, mas essa precisão seria mais útil?

Carrosive
fonte
6
Você faz alguns pontos positivos, mas o fato de "em muitos casos, nossas observações e previsões não ficarem exatamente na linha ajustada" não é uma demonstração adequada do slogan "todos os modelos estão errados". Na regressão linear, estamos modelando E (Y | X) e, portanto, os pontos que não estão exatamente na linha não demonstram uma deficiência em nosso modelo. A aleatoriedade é pré-especificada e esperada; o modelo não está "errado" quando observamos desvios da linha ajustada.
klumbard
@klumbard Obrigado pelo comentário. Atualizei minha resposta com mais detalhes, o que explica meu raciocínio sobre o uso desta como exemplo. Adotei uma abordagem mais filosófica na minha resposta e falei em termos mais gerais, e não específicos, este é o meu primeiro post nesta comunidade, portanto peço desculpas se este não for o lugar para fazê-lo. Você parece ter conhecimento sobre os detalhes, poderia elaborar um pouco mais o seu comentário? A pergunta que tenho é: onde os desvios não demonstram deficiência, um modelo de regressão com um R ao quadrado de 0,01 também não é "errado"?
Carrosive
2
Meu único problema com a sua postagem é a maneira como você expressa "... como em muitos casos, nossas observações e previsões não se encaixam exatamente na linha ajustada. Essa é uma maneira pela qual nosso modelo geralmente está 'errado' ..." . Estou simplesmente dizendo que a especificação do modelo inclui um termo de erro e, portanto, o fato (sozinho) de que os dados observados não caem na linha ajustada não indica "erro" do modelo. Esta pode parecer uma distinção semântica sutil, mas eu acho que é importante
klumbard
1
O ponto importante, abordado por você, é que todos os modelos estão errados devido ao viés variável omitido, bem como à especificação incorreta da forma funcional. Toda vez que você anota um modelo de regressão e realiza inferência nas estimativas, está assumindo que especificou corretamente o modelo, o que nunca é o caso.
klumbard
1
@ klumbard Oh, eu posso ver de onde você está vindo agora. Portanto, embora o modelo produza estimativas improváveis ​​de serem completamente precisas, podemos medir o termo do erro para indicar quanto os valores reais podem se desviar das estimativas e, portanto, seria incorreto dizer que o modelo está inerentemente errado. Vou tirar essa parte da minha resposta, acho que meu argumento é melhor explicado na parte que adicionei depois. Obrigado por explicar :)
Carrosive
8

O mínimo global pode ser inútil, portanto não nos importamos se o encontramos ou não. O motivo é que, para redes profundas, não apenas o tempo para encontrá-lo se torna exponencialmente mais longo à medida que o tamanho da rede aumenta, mas também o mínimo global geralmente corresponde à adaptação excessiva do conjunto de treinamento. Assim, a capacidade de generalização do DNN (que é com o que realmente nos importamos) sofreria. Além disso, geralmente preferimos mínimos mais planos, correspondentes a um valor mais alto da função de perda, do que mínimos mais nítidos, correspondentes a um valor mais baixo da função de perda, porque o segundo lidará muito mal com a incerteza nas entradas. Isso está se tornando cada vez mais claro com o desenvolvimento do Deep Learning Bayesiano. A otimização robusta supera a otimização determinista com muita frequência, quando aplicada a problemas do mundo real, onde a incerteza é importante.

Por fim, é fato que os DNNs simplesmente se destacam em métodos como o XGBoost na classificação de imagens e a PNL. Uma empresa que deve lucrar com a classificação de imagens as selecionará corretamente como modelos a serem implantados na produção ( e investirá uma quantia significativa de dinheiro em engenharia de recursos, pipeline de dados, etc., mas discordo). Isso não significa que eles dominam todo o ambiente de ML: por exemplo, eles se saem pior que o XGBoost em dados estruturados (veja os últimos vencedores das competições Kaggle) e parecem ainda não se sair tão bem quanto os filtros de partículas na modelagem de séries temporais. No entanto, algumas inovações muito recentes em RNNs podem modificar essa situação.

DeltaIV
fonte
2
Sério? Um voto negativo? Isso é um pouco desnecessário. É uma resposta razoável (+1).
usεr11852 diz Reinstate Monic
5
@RajeshDachiraju, já que você aparentemente está tentando inferir do que eu gostaria ou não, você provavelmente estaria interessado em aprender que pessoas com um entendimento muito mais amplo das redes neurais e da otimização não convexa que você parece ter, costumam falar sobre um único mínimo global para redes neurais. Entre a enorme pilha de papéis usando essa terminologia, você pode tentar ler este e ver se entende onde está errado.
DeltaIV
2
@RajeshDachiraju: Obrigado por explicar seu raciocínio, muitas pessoas simplesmente não se incomodariam. Dito isto, acho que seu raciocínio é imperfeito e decorre da má interpretação de uma frase muito particular. Eu concordo com a DeltaIV que esta terminologia padrão.
usεr11852 diz Reinstate Monic
1
@ DeltaIV: Meu argumento é que pode haver vários vetores de peso com 0 perda de dados de treinamento (é claro, mantendo a arquitetura constante). O ponto principal do treinamento é obter o vetor de peso inst? Então eu discordo de você. Um desses vetores de peso é extremamente útil. Mas peço que concordemos em discordar e encerre esta conversa aqui. Atenciosamente, Rajesh
Rajesh Dachiraju
1
7

Eu acho que a melhor maneira de pensar sobre essa questão é através do mercado competitivo. Se você adora o aprendizado profundo, e seus concorrentes o usam, E acontece que funciona melhor do que você usou, então você será derrotado no mercado.

Eu acho que é o que está acontecendo hoje, em parte, ou seja, o aprendizado profundo parece funcionar melhor do que qualquer coisa para todo o conjunto de problemas no mercado. Por exemplo, tradutores de idiomas on-line que usam aprendizado profundo são melhores do que as abordagens puramente lingüísticas usadas anteriormente. Apenas alguns anos atrás, esse não era o caso, mas os avanços no aprendizado profundo trouxeram aqueles que se acostumaram às posições de liderança no mercado.

Continuo repetindo "o mercado", porque é isso que está impulsionando o atual surto de aprendizado profundo. No momento em que os negócios encontrarem algo útil, algo se espalhará amplamente. Não é que nós , o comitê, decidimos que o aprendizado profundo deve ser popular. São negócios e concorrência.

A segunda parte é que, além do sucesso real do ML, também há medo de perder o barco. Muitas empresas são paranóicas de que, se perderem a IA, fracassarão como empresas. Esse medo está sendo alimentado por todas essas consultorias, Gartners etc., sussurrando aos CEOs que eles devem fazer IA ou morrer amanhã.

Ninguém está forçando as empresas a usar o aprendizado profundo. TI e P&D estão empolgados com um novo brinquedo. A torcida está na academia, então essa festa vai durar até que a música pare, ou seja, até que o aprendizado profundo pare de acontecer. Enquanto isso, você pode despejá-lo e encontrar uma solução melhor.

Aksakal
fonte
E o financiamento da pesquisa acadêmica? Você pode, por favor, lançar alguma luz sobre isso?
Rajesh Dachiraju
2
Muito financiamento vem da indústria. Os professores que recebem mais dinheiro da indústria são os que mais influenciam na academia. As universidades retiram uma enorme quantia de dinheiro que recebem das empresas, por isso amam esses professores. Se você ler este artigo NYT, você pode ter uma idéia do frenesi na academia e indústria
Aksakal
muito boa referência ao mercado (+1): eu disse o mesmo ("Uma empresa que deve obter lucro com a classificação de imagens as selecionará corretamente como modelos a serem implantados na produção"). No entanto, eu discordo levemente da paranóia. É um fato (não paranóia) que Waymo está pronto para vencer a Tesla, a Audi e outro fabricante de automóveis cujo nome não me lembro agora, e isso se deve em grande parte aos grandes investimentos do Google em Deep Learning. Audi poderia ter definitivamente utilizado SIFT e SURF (tecnologias de visão computacional bem testados que estão em nada relacionado a Deep Learning), se eles ...
DeltaIV
...procurado. A superioridade do DL em relação ao SIFT, SURF e outros métodos baseados em geometria, quando se trata de classificação de imagens, é um fato atestado por cinco anos de sólida pesquisa acadêmica e industrial. Definitivamente, não é uma panacéia (veja as falhas do IBM Watson), e há algum hype, mas também há fatos difíceis e frios.
DeltaIV
2
O @DeltaIV ML definitivamente funciona em algumas aplicações, mas acho que a adoção amplamente difundida de hoje se deve à paranóia e ao hype em grande parte. Se ele está funcionando ou não, os CTOs estão apenas tentando. Tenho amigos que não tinham idéia do que eu estava falando de apenas um ano atrás, agora eles dizem que AI é o futuro, eles vão começar a implementações etc.
Aksakal
4

Existem excelentes respostas, principalmente com a utilidade de DL e RNAs. Mas eu gostaria de objetar o OP de uma maneira mais fundamental, uma vez que a questão já dá como certa a inconsistência matemática das redes neurais.

Em primeiro lugar, não é uma teoria matemática por trás (a maioria dos modelos de) Redes Neurais. Você também pode argumentar que a regressão linear não generaliza, a menos que o modelo subjacente seja ... bem, linear. Nos algoritmos neurais, um modelo é assumido (mesmo que não explicitamente) e o erro de ajuste é calculado. O fato de algoritmos serem modificados com várias heurísticas não anula o suporte matemático original. Aliás, a otimização local também é uma teoria matematicamente consistente, e muito menos útil.

Nessa linha, se as redes neurais constituem apenas uma classe de métodos dentro de toda a caixa de ferramentas dos cientistas, qual é a linha que separa as redes neurais do restante das técnicas? De fato, os SVMs já foram considerados uma classe de NNs e ainda aparecem nos mesmos livros. Por outro lado, os RNs podem ser considerados uma técnica de regressão (não linear), talvez com alguma simplificação. Concordo com o OP de que devemos procurar algoritmos melhores, bem fundamentados e eficientes, independentemente de você os rotular como NNs ou não.

Miguel
fonte
O problema de ser inconsistente é que, não se pode fazer perguntas simples como: quando parar o treinamento e desistir? Também muitos rumores como 'Dropot', 'decaimento de peso', 'ReLu' e várias ativações, normalização de lotes, pool máximo, softmax, parada antecipada, vários cronogramas de taxas de aprendizado e todas as permutações e combinações destes fazem o designer sempre em dúvida desistir ou não em algum momento.
Rajesh Dachiraju
1
@RajeshDachiraju O mesmo poderia ser dito sobre os coeficientes de penalidade nos algoritmos de otimização de ponto exterior ou sobre o tamanho da etapa nos métodos Runge-Kutta. A palavra "inconsistente" tem um significado preciso na ciência que não se aplica aqui.
Miguel
0

Eu acho que, por algum problema, nos preocupamos menos com o rigor e a simplicidade matemática, mas mais por sua utilidade, o status atual é que a rede neural é melhor na execução de determinadas tarefas, como reconhecimento de padrões no processamento de imagens.

Lily Long
fonte
0

Há muita coisa nessa questão. Vamos revisar o que você escreveu, um por um.

As soluções que se encaixam nos dados de treinamento são infinitas. Não temos uma equação matemática precisa que seja satisfeita apenas por uma única e que possamos dizer que generaliza melhor.

O fato de existirem muitas soluções infinitas resulta do problema de aprendizado ser um problema incorreto, portanto não pode haver um que generalize melhor. Além disso, por nenhum teorema do almoço grátis, o método que usarmos não pode garantir que seja o melhor em todos os problemas de aprendizagem.

Simplesmente falando, não sabemos o que generaliza melhor.

Esta afirmação não é realmente verdadeira. Existem teoremas sobre minimização de risco empírico por Vapnik & Chervonenkis que conectam o número de amostras, a dimensão VC do método de aprendizagem e o erro de generalização. Observe que isso se aplica apenas a um determinado conjunto de dados. Portanto, dado um conjunto de dados e um procedimento de aprendizado, sabemos os limites da generalização. Observe que, para conjuntos de dados diferentes, não existe e não pode haver um único procedimento de aprendizado devido a nenhum teorema do almoço grátis.

Otimizar pesos não é um problema convexo; portanto, nunca sabemos que acabamos com um mínimo global ou local. Então, por que não apenas despejar as redes neurais e procurar um modelo melhor de ML?

Aqui há algumas coisas que você precisa ter em mente. Otimizar problemas não convexos não é tão fácil quanto um problema convexo; isso é verdade. No entanto, a classe de métodos de aprendizagem convexos é limitada (regressão linear, SVMs) e, na prática, eles apresentam desempenho pior do que a classe de não convexos (CNNs) em uma variedade de problemas. Portanto, a parte crucial é que, na prática, as redes neurais funcionam melhor. Embora existam vários elementos muito importantes que fazem as redes neurais funcionarem bem:

  1. Eles podem ser aplicados em conjuntos de dados muito grandes devido à descida do gradiente estocástico.
  2. Ao contrário dos SVMs, a inferência com redes profundas não depende do conjunto de dados. Isso torna as redes neurais eficientes no momento do teste.
  3. Com as redes neurais, é possível controlar diretamente sua capacidade de aprendizado (pense no número de parâmetros) simplesmente adicionando mais camadas ou aumentando-as. Isso é crucial, pois para conjuntos de dados diferentes, você pode querer modelos maiores ou menores.

Algo que entendemos e algo consistente com um conjunto de equações matemáticas? Linear e SVM não têm essas desvantagens matemáticas e são totalmente consistentes com um conjunto de equações matemáticas. Por que não pensar nas mesmas linhas (embora não precise ser linear) e criar um novo modelo de ML melhor do que Linear e SVM e redes neurais e aprendizado profundo?

Despejar coisas que funcionam por não entendê-las não é uma boa direção de pesquisa. Por outro lado, fazer um esforço para entendê-las é uma ótima direção de pesquisa. Também discordo que as redes neurais são inconsistentes com as equações matemáticas. Eles são bastante consistentes. Sabemos como otimizá-los e executar inferência.

Gnattuha
fonte
-2

Que tal visualizar redes neurais do ponto de vista experimental? Só porque os criamos não significa que somos obrigados a entendê-los intuitivamente. Ou que não temos permissão para brincar com eles, a fim de ter uma melhor compreensão do que eles estão fazendo.

Aqui estão alguns pensamentos que tenho sobre eles:

  • Estrutura: são hierarquias. Eles são como árvores que compartilham insumos. As raízes são as entradas e as folhas são a camada de saída. Quanto mais próxima a camada estiver das saídas, mais relevante é para elas, maior o nível de abstração que ela contém (é mais a imagem do que os pixels).
  • Funcionalidade: eles "brincam" com os dados, o modus operandi é experimentar relações nos neurônios (pesos) até que as coisas "cliquem" (a margem de erro é aceitável).

Isso é consistente com a forma como pensamos. É até consistente com o modo como o método científico opera. Assim, ao quebrar as redes neurais, também podemos resolver a questão geral do que o conhecimento representa.

ROBERTO EDWINS
fonte
-3

Não se esqueça, há um vasto campo de pesquisa que usa LMs, GLM, modelagem multinível. Ultimamente, as técnicas bayesianas e o Monte Carlo Hamiltoniano (a comunidade STAN está realmente na vanguarda disso) atingiram a maioridade e vários problemas resolvidos pelo STAN com muita facilidade e realmente não precisam de NNs ou redes profundas. Pesquisa em ciências sociais e microeconomia são dois (grandes) exemplos de tais campos adotando Stan rapidamente.

Os modelos Stan são muito "legíveis". Os coeficientes realmente têm uma interpretação distributiva posterior e as previsões também. Os anteriores fazem parte do processo de geração de dados e não precisam ser conjugados para ter desempenho (como gibbs). O ajuste de modelo em stan é uma delícia, na verdade, sintoniza os params irritantes do MCMC automaticamente muito bem e avisa quando a exploração é travada com visualizações muito boas.

Se você ainda não experimentou, veja as incríveis demos aqui ).

No final do dia, acho que as pessoas não falam muito sobre isso, porque a pesquisa nesse campo e os problemas não são tão "sexy" / "legais" quanto nos NNs.

Sid
fonte
-5

O que normalmente acontece quando não há consistência matemática (pelo menos neste caso de redes neurais) ... quando não está dando os resultados desejados, no teste, seu chefe volta e diz ... Ei, por que você não tente Desistir (quais pesos, qual camada, quantas dores de cabeça há e não há uma maneira matemática de determinar); portanto, depois de tentar obter uma melhoria marginal, mas não a desejada, seu chefe voltará e perguntará por que não tente diminuir o peso (qual fator?)? e mais tarde, por que você não tenta ReLU ou alguma outra ativação em algumas camadas, e ainda não, por que não tentar 'pool máximo'? ainda não, por que não tentar a normalização em lote, ainda não ou a convergência pelo menos, mas o resultado não desejado? Oh, você está no mínimo local, tente um cronograma de taxas de aprendizado diferentes, basta mudar a arquitetura da rede? e repita tudo acima em diferentes combinações! Mantenha-o em um loop até conseguir!

Por outro lado, quando você tenta um SVM consistente, após a convergência, se o resultado não for bom, tudo bem, o kernel linear que estamos usando não é bom o suficiente, pois os dados podem não ser lineares, use um kernel de formato diferente, tente um kernel de formato diferente, se você tiver algum palpite, se ainda não tiver, apenas deixe, é uma limitação do SVM.

O que estou dizendo é que as redes neurais são tão inconsistentes que nem estão erradas! Ele nunca aceita sua derrota! O engenheiro / designer assume o ônus, caso não funcione conforme desejado.

Rajesh Dachiraju
fonte
3
Isso não me parece conter uma resposta para sua própria pergunta. Você acha que poderia editá-lo para parecer menos divertido e esclarecer de que maneira isso explica por que as redes neurais e o aprendizado profundo podem ser mais úteis que um modelo de ML (que parece ser sua pergunta original)?
Silverfish
1
O argumento dele é que, com o SVM, sabemos quando fazemos o melhor possível, mas com os NNs não podemos saber. Indiscutivelmente, dada a facilidade com que DL é enganado, mesmo métricas como erro não nos dizem o quão bem o modelo está realmente indo.
yters
1
@ yters, sim, mas o comentário do silverfish foi que essa não é uma resposta para o porquê de não despejar o DL. É mais perto de uma reafirmação da pergunta. Eu sugiro fundi-lo com a pergunta.
P.Windridge