Livro didático sobre a * teoria * das redes neurais / algoritmos ML?

23

Todos os livros que eu vi até agora descrevem os algoritmos de ML e como implementá-los.

Existe também um livro que constrói teoremas e provas para o comportamento desses algoritmos? por exemplo, declarando que nas condições , a descida do gradiente sempre levará a ?x,y,zUMA,B,C

user56834
fonte
1
Há algumas sugestões na minha pergunta aqui . Em particular, você pode apreciar o livro que recomendo na minha resposta.
Jack M
Muitos manuais de otimização fornecem provas de convergência para algoritmos de otimização. (Precisamos verificar com cuidado que as hipóteses de estes teoremas de convergência são satisfeitas antes de tirar qualquer conclusão firme de que nosso algoritmo é garantida a convergir.)
littleO

Respostas:

16

Foundations of Machine Learning , de Mehryar Mohri, Afshin Rostamizadeh e Ameet Talwalkar, é um livro de 2012 sobre a teoria do aprendizado de máquina.

Entendendo o aprendizado de máquina: da teoria aos algoritmos , de Shai Shalev-Shwartz e Shai Ben-David, é um livro semelhante de 2014, bastante conhecido e direcionado um pouco mais introdutório do que Mohri / Rostamizadeh / Talwalkar, mas ainda tem muita teoria em isto. Está disponível gratuitamente online.

Aprendizado de rede neural: fundamentos teóricos , de Martin Anthony e Peter Bartlett, é um livro de 1999 sobre a teoria da ML formulado como sendo sobre redes neurais, mas (para minha impressão não ter lido) é principalmente sobre a teoria da ML em geral.

Esses três livros adotam principalmente o ponto de vista predominante da teoria estatística da aprendizagem. Há também um ponto de vista interessante chamado teoria da aprendizagem computacional , inspirada mais pela teoria da ciência da computação. Penso que o livro introdutório padrão nesta área é Uma Introdução à Teoria da Aprendizagem Computacional , um livro de 1994 de Michael Kearns e Umesh Vazirani.

Outro livro disponível gratuitamente excelente e frequentemente recomendado é Trevor Hastie, Robert Tibshirani e a segunda edição de 2009 de Jerome Friedman, The Elements of Statistical Learning . É talvez um pouco menos teórico do que os outros, e mais do ponto de vista do estatístico do que do aprendiz de máquina, mas ainda tem muito interesse.

Além disso, se você se preocupa principalmente com a descida do gradiente, a referência padrão é Otimização convexa de Stephen Boyd e Lieven Vandenberghe. Este livro de 2004 está disponível gratuitamente online.

Nenhum desses livros contém muito da teoria moderna das redes profundas, se é com isso que você se importa. (Por exemplo, a maior parte da teoria da otimização será sobre casos convexos, que redes profundas decididamente não são.) Isso ocorre porque essa teoria é muito nova; a maioria dos resultados chegou apenas nos últimos anos e ainda está sendo descoberto muito. Mas, como uma visão geral do entendimento básico do campo até agora, qualquer um deles o ajudará a entender os trabalhos em que esse trabalho é realizado (exceto talvez Kearns / Vazirani, que se concentra nos diferentes aspectos da análise que eu ' ainda não tenho certeza de que foram aplicadas com êxito a redes profundas).

Dougal
fonte
O entendimento do aprendizado de máquina está disponível on-line na página de um autor.
Jakub Bartczuk
2

Aprendizado de máquina: uma perspectiva probabilística de Kevin P. Murphy explica muita teoria de uma perspectiva bayesiana (eu a usei apenas para regressão logística, mas achei muito boa). O livro inteiro está disponível online como PDF pesquisando no Google.

qwr
fonte
2
  • Aprendizado profundo (computação adaptativa e séries de aprendizado de máquina) . Escrito por Ian Goodfellow, Yoshua Bengio e Aaron Courville . De acordo com o contrato do autor com o MIT Press, você pode ler a cópia legalmente disponível no navegador deste site. www.deeplearningbook.org Isso é bom para matemática pura e teoria da rede neural e seus diferentes sub-ramos.

Além disso,

  • Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão também são um bom livro para criar fundamentos teóricos e matemáticos no aprendizado de máquina tradicional. Escrito por Trevor Hastie, Robert Tibshirani e Jerome Friedman e disponível gratuitamente pelos autores em https://web.stanford.edu/~hastie/ElemStatLearn/
Entusiasta
fonte
1

O design de redes neurais (Martin T. Hagan, Howard B. Demuth, Mark Hudson Beale, Orlando De Jesus) tem uma boa discussão sobre otimização no contexto de redes neurais.

Sycorax diz restabelecer Monica
fonte