Todos os livros que eu vi até agora descrevem os algoritmos de ML e como implementá-los.
Existe também um livro que constrói teoremas e provas para o comportamento desses algoritmos? por exemplo, declarando que nas condições , a descida do gradiente sempre levará a ?
Respostas:
Foundations of Machine Learning , de Mehryar Mohri, Afshin Rostamizadeh e Ameet Talwalkar, é um livro de 2012 sobre a teoria do aprendizado de máquina.
Entendendo o aprendizado de máquina: da teoria aos algoritmos , de Shai Shalev-Shwartz e Shai Ben-David, é um livro semelhante de 2014, bastante conhecido e direcionado um pouco mais introdutório do que Mohri / Rostamizadeh / Talwalkar, mas ainda tem muita teoria em isto. Está disponível gratuitamente online.
Aprendizado de rede neural: fundamentos teóricos , de Martin Anthony e Peter Bartlett, é um livro de 1999 sobre a teoria da ML formulado como sendo sobre redes neurais, mas (para minha impressão não ter lido) é principalmente sobre a teoria da ML em geral.
Esses três livros adotam principalmente o ponto de vista predominante da teoria estatística da aprendizagem. Há também um ponto de vista interessante chamado teoria da aprendizagem computacional , inspirada mais pela teoria da ciência da computação. Penso que o livro introdutório padrão nesta área é Uma Introdução à Teoria da Aprendizagem Computacional , um livro de 1994 de Michael Kearns e Umesh Vazirani.
Outro livro disponível gratuitamente excelente e frequentemente recomendado é Trevor Hastie, Robert Tibshirani e a segunda edição de 2009 de Jerome Friedman, The Elements of Statistical Learning . É talvez um pouco menos teórico do que os outros, e mais do ponto de vista do estatístico do que do aprendiz de máquina, mas ainda tem muito interesse.
Além disso, se você se preocupa principalmente com a descida do gradiente, a referência padrão é Otimização convexa de Stephen Boyd e Lieven Vandenberghe. Este livro de 2004 está disponível gratuitamente online.
Nenhum desses livros contém muito da teoria moderna das redes profundas, se é com isso que você se importa. (Por exemplo, a maior parte da teoria da otimização será sobre casos convexos, que redes profundas decididamente não são.) Isso ocorre porque essa teoria é muito nova; a maioria dos resultados chegou apenas nos últimos anos e ainda está sendo descoberto muito. Mas, como uma visão geral do entendimento básico do campo até agora, qualquer um deles o ajudará a entender os trabalhos em que esse trabalho é realizado (exceto talvez Kearns / Vazirani, que se concentra nos diferentes aspectos da análise que eu ' ainda não tenho certeza de que foram aplicadas com êxito a redes profundas).
fonte
Aprendizado de máquina: uma perspectiva probabilística de Kevin P. Murphy explica muita teoria de uma perspectiva bayesiana (eu a usei apenas para regressão logística, mas achei muito boa). O livro inteiro está disponível online como PDF pesquisando no Google.
fonte
Além disso,
fonte
O design de redes neurais (Martin T. Hagan, Howard B. Demuth, Mark Hudson Beale, Orlando De Jesus) tem uma boa discussão sobre otimização no contexto de redes neurais.
fonte