Eu gostaria de aprender sobre teoria das probabilidades, teoria das medidas e, finalmente, aprendizado de máquina. Meu objetivo final é usar o aprendizado de máquina em um software.
Estudei cálculo e probabilidade muito básica na faculdade, mas é praticamente isso. Você conhece alguns cursos ou livros on-line que eu poderia usar para aprender sobre esses assuntos. Encontrei muitos recursos na Web, mas todos parecem direcionados a um público especializado. Eu sei que vai levar algum tempo, mas por onde começar se eu gostaria de aprender desde o início?
Respostas:
Eu acho que existem duas referências muito boas e populares para você (comecei com essas também tendo um histórico de mestrado em ciências atuariais):
Uma Introdução à Aprendizagem Estatística (com aplicação em R) de Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Está disponível gratuitamente no site, bastante abrangente e fácil de entender com exemplos práticos. Você pode começar a aprender muitas coisas, mesmo sem um fundo estatístico muito forte; essa referência é boa para vários perfis e inclui um número adequado de algoritmos populares, juntamente com sua implementação em R, sem aprofundar os detalhes matemáticos.
Os elementos da aprendizagem estatística de Trevor Hastie, Robert Tibshirani e Jerome Friedman . Comparando com o primeiro, este livro se aprofundará nos aspectos matemáticos se você quiser explorar mais os algoritmos específicos que considera úteis para você. (é gratuito também)
E, é claro, o Cross Validated é uma das melhores fontes para você aprender muitas coisas: para mim: melhores práticas, mal-entendidos estatísticos e mau uso e muito mais. Depois de vários anos de aprendizado em escolas / universidades, bem como de aprendizado por seft, descobri que meu conhecimento é muito limitado quando fui pela primeira vez à Cross Validated. Continuo aqui todos os dias desde a primeira visita e aprendo muito.
fonte
Aqui estão alguns cursos on-line gratuitos que eu ouvi são altamente recomendados:
fonte
você não precisa da teoria da medida. A teoria da medida é usada pelos matemáticos para justificar outros procedimentos matemáticos, por exemplo, tomar limites de aproximações de integrais. A maioria dos engenheiros não teria estudado a teoria da medida, apenas usaria os resultados. O conhecimento matemático necessário para o ML é basicamente caracterizado por ser capaz de integrar um Gaussiano multivariado.
Eu recomendaria o Think Stats de Allen Downey - que visa ensinar probabilidade / estatística aos programadores. A idéia é aproveitar a experiência em programação para fazer simulações e, portanto, entender a teoria da probabilidade / métodos estatísticos. allen downey blog (ele escreveu outros) Think stats (grátis) pdf )
fonte
Como você está interessado em aprendizado de máquina, eu pularia probabilidades e medidas, e entraria direto no ML. O curso de Andrew Ng é um ótimo lugar para começar. Você pode literalmente terminar em duas semanas.
Brinque com o que aprendeu por algumas semanas, depois volte às raízes e estude algumas probabilidades. Se você é engenheiro, estou intrigado com a maneira como você conseguiu entrar na faculdade. Costumava ser o curso exigido em engenharia. De qualquer forma, você pode acompanhar o curso do MIT OCW aqui .
Eu não acho que você precise de teoria da medida. Ninguém precisa medir a teoria. Aqueles que o fazem, não vêm aqui para perguntar, porque seu orientador lhes dirá qual curso seguir. Se você não tem um consultor, definitivamente não precisa dele. Tautologia, mas é verdade.
A coisa com uma teoria da medida é que você não pode aprender por "leitura fácil". Você tem que fazer os exercícios e os problemas, basicamente, da maneira mais difícil. Isso é praticamente impossível fora da sala de aula, na minha opinião. A melhor opção aqui é fazer uma aula na faculdade local, se eles oferecerem. Às vezes, o curso de probabilidades no nível de doutorado fará a medida e as probabilidades em uma classe, o que provavelmente é o melhor negócio. Eu não recomendaria ter uma aula de teoria da medida pura no departamento de Matemática, a menos que você realmente queira se torturar, embora no final você fique muito satisfeito.
fonte
Para o aprendizado de máquina, acho que o aprendizado de máquina: a arte e a ciência dos algoritmos que compreendem os dados de Peter Flach pode ser um bom recurso para começar. Ele fornece uma introdução geral ao aprendizado de máquina com exemplos intuitivos e é adequado para iniciantes. Gosto deste livro particularmente por causa do capítulo anterior, que trata de experimentos de aprendizado de máquina. Enquanto você aprende sobre aprendizado de máquina, conhecer modelos diferentes não é suficiente, e deve-se conseguir comparar diferentes algoritmos de aprendizado de máquina. Acho que este livro tornou mais fácil entender como comparar esses algoritmos. Os slides das palestras podem ser encontrados aqui .
fonte
Para acrescentar às excelentes sugestões acima, eu diria que, se você estiver interessado em ter uma idéia firme de conceitos mais básicos em probabilidade e estatística, "De algoritmos a escores Z: computação probabilística em estatística" é um excelente manual para usar computadores para compreender alguns dos conceitos mais importantes para iniciantes / intermediários na teoria das probabilidades e nos processos estocásticos. Também vou destacar "Uma Introdução à Aprendizagem Estatística" ou "Elementos de Aprendizagem Estatística" (ESL) como uma introdução ao aprendizado de máquina (ML). Eu acho que a ESL em particular é incrível, mas é preciso dar uma olhada muito mais matemática nos conceitos de ML; portanto, se você se considera "bom" nas estatísticas, pode querer ler uma vez depois de obter mais experiência com ML.
Se você está interessado em Machine Learning por trabalhar ou resolver problemas, é essencial ter experiência prática. Faça uma introdução aos cursos de ciência de dados / aprendizado de máquina. Andrew Ng faz uma introdução incrível ao aprendizado de máquina em seu curso na Coursera aqui . Eu também sugiro que você baixe alguns conjuntos de dados e comece a brincar com eles. Se você ainda não o fez, faça o download do R e do RStudio (na minha opinião, mais amigável para iniciantes que Python ou Matlab), e inscreva-se no kaggle e resolva alguns dos problemas deles. Eles têm ótimas orientações que podem levá-lo a usar o ML basicamente sem ter idéia do que realmente está acontecendo, mas fornece uma idéia sobre o tipo de etapas que você precisa seguir para implementar uma solução de ML.
Eu pessoalmente incentivaria uma combinação de começar a usar ferramentas de ML sem realmente saber o que elas fazem (usando conjuntos de dados Kaggle ou similares); e aprendendo conceitos fundamentais como validação cruzada, sobreajuste, uso de matrizes de confusão, diferentes medidas de quão bom é um modelo etc. Para mim, é muito mais importante saber como usar os algoritmos e saber como identificar quando as coisas estão funcionando. / não está funcionando, é entender como os algoritmos funcionam.
fonte