Durante o primeiro semestre de 2015, fiz o curso coursera de Machine Learning (por Andrew Ng, curso GREAT). E aprendeu o básico do aprendizado de máquina (regressão linear, regressão logística, SVM, Redes Neuronais ...)
Também sou desenvolvedor há 10 anos, portanto, aprender uma nova linguagem de programação não seria um problema.
Ultimamente, comecei a aprender R para implementar algoritmos de aprendizado de máquina.
No entanto, percebi que, se quero continuar aprendendo, precisarei de um conhecimento mais formal de estatística, atualmente tenho um conhecimento não formal, mas tão limitado que, por exemplo, não consegui determinar adequadamente qual dos vários modelos lineares seria melhor (normalmente eu costumo usar R-square para isso, mas aparentemente isso não é uma idéia muito boa).
Então, para mim, parece bastante óbvio que eu preciso aprender o básico da estatística (estudei isso na universidade, mas esqueci a maioria). Onde devo aprender? Observe que não preciso de um curso totalmente abrangente, apenas algo isso dentro de um mês permite que eu saiba o suficiente para que eu possa ficar ansioso e aprender mais :).
Até agora eu li sobre " Estatísticas sem lágrimas ", alguma outra sugestão?
fonte
references
tag. Você pode verificar a primeira página de ocorrências sobre esse tópico.Respostas:
Eu sugeriria um roteiro básico sobre como fazê-lo:
Bônus:
Um site maravilhoso para esses roteiros é o Metacademy , que eu pessoalmente atestaria como um dos melhores recursos de ciência de dados da web.
O Gitxiv é outro site bonito, que conecta os documentos de pesquisa da Arxiv sobre Ciência de Dados às implementações / bibliotecas de código aberto relevantes.
fonte
Você já conferiu o Think Stats ou o Think Bayes - ambos são livros de estatísticas (gratuitos) voltados para programadores e com bastante código Python.
Além disso, se você estiver interessado em aprender R então CRAN tem um monte de pdfs (gratuito) que você pode querer verificar para fora, como Introdução à Probabilidade e Estatística Utilizar R . Há também um curso Coursera que usa R, que muitas pessoas realmente amam (eles usam este livro , que você também pode querer conferir, e têm laboratórios no DataCamp , acredito).
Além disso, se você quiser atualizar alguns tópicos do Stats, sempre poderá assistir a alguns vídeos na Khan Academy .
fonte
Se você já foi, mesmo em um passado distante, capaz de resolver problemas nesta lista , tente estudar as estatísticas aplicadas "adequadamente". Vou lhe dar um algoritmo simples de duas etapas.
Primeiro, atualize-se com a teoria das probabilidades. Existem muitos ótimos livros. Meu favorito é o livro clássico de Feller. É chamado de "Introdução", mas não se deixe enganar pelo título, é o mais profundo que você deseja, mas muito bem escrito e simples, se você quiser apenas dar uma olhada na superfície.
O segundo passo é estatística. Novamente, há uma tonelada de ótimos livros. Vou lhe dar um que usei, um texto de introdução decente de Gujarati "Basic Econometrics", quarta edição. Econometria é uma estatística aplicada à economia. Para uma referência, um cara que todo mundo pensa que disse que o cientista de dados será um trabalho mais sexy nos próximos 10 anos é Hal Varian, economista de Berkeley. Muitas coisas de aprendizado de máquina são baseadas em estatísticas básicas, regressões etc. Tudo o que é abordado neste livro, e você não precisa ler tudo, está escrito de uma maneira que você pode escolher os capítulos em sua própria ordem.
Você ficará surpreso ao ver quantas lacunas ainda estão em aberto após a aula de Ng preencher rapidamente ao ler esses textos.
Como praticante, você não precisa de muita teoria depois desses dois passos. Você pode continuar aprendendo técnicas de ML lendo especificamente os livros neste campo. É importante não se aprofundar no início em probabilidades e estatísticas. Primeiro, adquira seu código para o ML e preencha as lacunas à medida que avança.
fonte
Todo mundo está recomendando a Casella & Berger, que é quase universalmente usada em programas de estatística de pós-graduação. Não é um livro de referência ruim, mas não tenho certeza se faria mais do que digitalizar os primeiros 4-5 capítulos. Eu não acho que você precise da teoria de como construir um teste do tipo Neyman-Pearson antes de se aprofundar em "estatística", isto é, análise de dados.
Em vez disso, eu me concentraria nos métodos de aprendizagem. Meu programa de pós-graduação usou Métodos Estatísticos Lineares Aplicados para os testes freqüentes, e é uma referência abrangente bastante decente, mas pode não ser o livro mais acessível do ponto de vista do autodidata. Um ou dois cursos do MIT ou do Coursera podem ser a melhor maneira de começar, porque você terá uma visão mais ampla com mais exemplos do que lendo um livro.
Para Bayes, o livro que eu tenho usado com mais frequência é o Doing Bayesian Data Analysis , que vem com fotos de filhotes (claramente, isso torna o livro superior a outros livros introdutórios bayesianos). Eu nunca usei o livro, mas o folheei e parece bastante decente - muito melhor do que o livro de Gelman, que achei um pouco incompreensível APÓS duas aulas de estatística bayesiana - as explicações são terríveis.
fonte
Esta não pretende ser uma resposta completa, é apenas uma sugestão. Se você quiser aprender mais sobre estatísticas (a base), leia:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
Este é um livro bastante padrão para estatísticos e tem muitos resultados interessantes. Você não precisa passar por todas as provas dos teoremas, mas pode querer fazer alguns exercícios para se sentir mais seguro com os resultados.
Se você quiser aprender mais sobre econometria (modelos de dados), pode dar uma olhada em:
Hayashi, F. (2000): Econometrics, Princeton University Press
Alguém na verdade perguntou algo semelhante ao que você pediu e obteve uma boa resposta: O que fazer após "Casella & Berger" .
Além disso, se você realmente pretende ler esses livros, este currículo de um curso de econometria pode fornecer uma orientação e um ritmo bastante bons sobre o que ler (CB & Hayashi) e quando ler.
fonte
Eu sugeriria um novo livro que saiu desde a pergunta original: Repensar Estatística: Um Curso Bayesiano com Exemplos em R e Stan por Richard McElreath, CRC Press.
É muito bem escrito e usa uma abordagem bayesiana. É muito interativo, e você vai querer resolver os problemas ou pode ficar na metade e começar a se perder.
Começa muito básico e termina com modelos de vários níveis, e é direcionado a cientistas razoavelmente avançados que têm algum conhecimento estatístico, mas não se sentem à vontade em geral com as estatísticas, como lhes foi ensinado. Portanto, não posso dizer exatamente que é um livro para iniciantes, mas começa de maneira muito simples e ele tem um estilo e um arco maravilhosos.
A parte "Stan" do título é uma ferramenta de amostragem bayesiana de uso geral. Essencialmente, é uma linguagem de programação que é compilada automaticamente em C ++ e depois compilada em um executável. (A inferência bayesiana é geral, diferentemente das alternativas, para que você possa ter uma ferramenta generalizada.)
fonte
Achei que eu daria essa resposta para a posteridade, mesmo que seja tarde demais para ser útil para você. O All Of Statistics de Larry Wasserman foi concebido como um curso para pessoas com experiência em aprendizado de máquina, outras disciplinas de ciências da computação ou matemática que não tinham nenhum treinamento formal em estatística - ou seja, pessoas em praticamente exatamente sua situação atual. Tendo uma falta semelhante de estatísticas formais, alguns amigos e eu formamos um grupo de auto-estudo para passar por isso na pós-graduação. Eu acho que realmente me beneficiei dessa experiência.
Os tópicos extras apresentados por Wasserman além do material típico do curso "probabilidade e inferência estatística", como modelos gráficos e bootstrap, são particularmente relevantes para quem trabalha em aprendizado de máquina. Devo dizer que o livro pode ser bem conciso em comparação com algo como Casella & Berger; portanto, se você quiser mais detalhes ou motivação para certas partes (especialmente provas), talvez seja necessário complementá-lo com outro material de leitura. Dito isto, também achei o livro claramente escrito com um bom número de problemas de prática, e é uma excelente referência rápida.
Um mês não é muito tempo. Se você definir um ritmo muito agressivo, acho que certamente poderá tirar muito proveito desse texto em um semestre: fizemos nosso grupo de auto-estudo durante o verão, por exemplo. Isso é especialmente verdade se você estiver interessado principalmente em modelagem linear, que será atingido por Ch. 13-14.
fonte