Por onde começar com estatísticas para um desenvolvedor experiente

47

Durante o primeiro semestre de 2015, fiz o curso coursera de Machine Learning (por Andrew Ng, curso GREAT). E aprendeu o básico do aprendizado de máquina (regressão linear, regressão logística, SVM, Redes Neuronais ...)

Também sou desenvolvedor há 10 anos, portanto, aprender uma nova linguagem de programação não seria um problema.

Ultimamente, comecei a aprender R para implementar algoritmos de aprendizado de máquina.

No entanto, percebi que, se quero continuar aprendendo, precisarei de um conhecimento mais formal de estatística, atualmente tenho um conhecimento não formal, mas tão limitado que, por exemplo, não consegui determinar adequadamente qual dos vários modelos lineares seria melhor (normalmente eu costumo usar R-square para isso, mas aparentemente isso não é uma idéia muito boa).

Então, para mim, parece bastante óbvio que eu preciso aprender o básico da estatística (estudei isso na universidade, mas esqueci a maioria). Onde devo aprender? Observe que não preciso de um curso totalmente abrangente, apenas algo isso dentro de um mês permite que eu saiba o suficiente para que eu possa ficar ansioso e aprender mais :).

Até agora eu li sobre " Estatísticas sem lágrimas ", alguma outra sugestão?

Juan Antonio Gomez Moriano
fonte
2
Para Estatística: Casella, G. e RL Berger (2002): Statistical Inference, Duxbury. Para Econometria: Hayashi, F. (2000): Econometria, Princeton University Press. Para outro ponto de vista: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
Eu adicionei a referencestag. Você pode verificar a primeira página de ocorrências sobre esse tópico.
Glen_b
3
Não vejo que isso deva ser fechado. Eu vejo um argumento para torná-lo CW, no entanto.
gung - Restabelece Monica
2
Do meu ponto de vista, o conhecimento será tendencioso se você começar a aprender estatística sem o conhecimento das teorias de probabilidade antes.
Metariat 13/10/2015
2
Gostaria de acrescentar uma palavra de advertência. Tenho certeza de que você já entende isso até certo ponto, mas só quero dizer. Eu sou um estudante de MD / PhD. Com meu diploma de MD, pretendo praticar medicina interna. Para meu doutorado, estou estudando bioestatística. Quero que você saiba que não pode mais dominar as estatísticas em 1 mês do que pode dominar a medicina em um mês. Não estou tentando desencorajá-lo a aprender estatística. Muito pelo contrário, espero que você entenda magnificamente. Mas apenas entenda que não é menos envolvido do que querer ser um desenvolvedor, por exemplo.
Vincent Laufer

Respostas:

26

Eu sugeriria um roteiro básico sobre como fazê-lo:

Bônus:

Um site maravilhoso para esses roteiros é o Metacademy , que eu pessoalmente atestaria como um dos melhores recursos de ciência de dados da web.

O Gitxiv é outro site bonito, que conecta os documentos de pesquisa da Arxiv sobre Ciência de Dados às implementações / bibliotecas de código aberto relevantes.

Dawny33
fonte
2
O OP já seguiu o curso de Ng, foi o que o levou a fazer a pergunta em primeiro lugar.
Aksakal
4
@ Aksakal eu notei isso. Mas, incluiu-o como parte do roteiro. Realmente não faria diferença, então pensei que incluí-lo ajudaria outras pessoas que estão lendo este post.
Dawny33
12

Você já conferiu o Think Stats ou o Think Bayes - ambos são livros de estatísticas (gratuitos) voltados para programadores e com bastante código Python.

Além disso, se você estiver interessado em aprender R então CRAN tem um monte de pdfs (gratuito) que você pode querer verificar para fora, como Introdução à Probabilidade e Estatística Utilizar R . Há também um curso Coursera que usa R, que muitas pessoas realmente amam (eles usam este livro , que você também pode querer conferir, e têm laboratórios no DataCamp , acredito).

Além disso, se você quiser atualizar alguns tópicos do Stats, sempre poderá assistir a alguns vídeos na Khan Academy .

Steve S
fonte
Eu gosto do Think Stats e do Think Bayes, mas eles deliberadamente evitam grande parte da teoria estatística formal em favor de fazer as coisas através do código. Ótimo para entender o assunto de maneira intuitiva, mas não tão bom se seu objetivo é entender a teoria subjacente.
Marius
@ Marius: Eu sei o que você quer dizer. Eu estava pensando, no entanto, que porque ele já é um programador e também porque ele parecia querer "algo pequeno, simples e rápido", poderia ser mais do que ele estava procurando.
Steve S
8

Se você já foi, mesmo em um passado distante, capaz de resolver problemas nesta lista , tente estudar as estatísticas aplicadas "adequadamente". Vou lhe dar um algoritmo simples de duas etapas.

Primeiro, atualize-se com a teoria das probabilidades. Existem muitos ótimos livros. Meu favorito é o livro clássico de Feller. É chamado de "Introdução", mas não se deixe enganar pelo título, é o mais profundo que você deseja, mas muito bem escrito e simples, se você quiser apenas dar uma olhada na superfície.

O segundo passo é estatística. Novamente, há uma tonelada de ótimos livros. Vou lhe dar um que usei, um texto de introdução decente de Gujarati "Basic Econometrics", quarta edição. Econometria é uma estatística aplicada à economia. Para uma referência, um cara que todo mundo pensa que disse que o cientista de dados será um trabalho mais sexy nos próximos 10 anos é Hal Varian, economista de Berkeley. Muitas coisas de aprendizado de máquina são baseadas em estatísticas básicas, regressões etc. Tudo o que é abordado neste livro, e você não precisa ler tudo, está escrito de uma maneira que você pode escolher os capítulos em sua própria ordem.

Você ficará surpreso ao ver quantas lacunas ainda estão em aberto após a aula de Ng preencher rapidamente ao ler esses textos.

Como praticante, você não precisa de muita teoria depois desses dois passos. Você pode continuar aprendendo técnicas de ML lendo especificamente os livros neste campo. É importante não se aprofundar no início em probabilidades e estatísticas. Primeiro, adquira seu código para o ML e preencha as lacunas à medida que avança.

Aksakal
fonte
4

Todo mundo está recomendando a Casella & Berger, que é quase universalmente usada em programas de estatística de pós-graduação. Não é um livro de referência ruim, mas não tenho certeza se faria mais do que digitalizar os primeiros 4-5 capítulos. Eu não acho que você precise da teoria de como construir um teste do tipo Neyman-Pearson antes de se aprofundar em "estatística", isto é, análise de dados.

Em vez disso, eu me concentraria nos métodos de aprendizagem. Meu programa de pós-graduação usou Métodos Estatísticos Lineares Aplicados para os testes freqüentes, e é uma referência abrangente bastante decente, mas pode não ser o livro mais acessível do ponto de vista do autodidata. Um ou dois cursos do MIT ou do Coursera podem ser a melhor maneira de começar, porque você terá uma visão mais ampla com mais exemplos do que lendo um livro.

Para Bayes, o livro que eu tenho usado com mais frequência é o Doing Bayesian Data Analysis , que vem com fotos de filhotes (claramente, isso torna o livro superior a outros livros introdutórios bayesianos). Eu nunca usei o livro, mas o folheei e parece bastante decente - muito melhor do que o livro de Gelman, que achei um pouco incompreensível APÓS duas aulas de estatística bayesiana - as explicações são terríveis.

srvanderplas
fonte
1
Os 5 primeiros capítulos de C&B não são realmente estatísticas, mais como antecedentes ... O conceito de estatística é abordado no início do capítulo 6! Mais precisamente, os métodos de aprendizado provavelmente não ajudarão essa pessoa específica. isso o ajudaria a aplicar estatísticas, não a entender, e é disso que ele precisa. se ele tem treinamento matemático avançado, provavelmente pode ignorá-lo até certo ponto, mas sua resposta sugere que ele atualmente é incapaz de entender os fundamentos da ML ... o que sugere fortemente que sua matemática é limitadora (para mim, pelo menos). C&B pode não ser um bom lugar para começar.
Vincent Laufer 14/10
1
Elas podem não ser estatísticas, mas os antecedentes das distribuições de probabilidade são essenciais para fazer qualquer tipo de modelagem - você precisa saber o que é uma distribuição bernoulli e quais são suas propriedades antes de entender a regressão logística, por exemplo. Ainda refiro a C&B ocasionalmente, mas acho que nunca usei nada além do capítulo 6 fora da aula que fiz que usou esse livro.
Srvanderplas 15/10/2015
1
Concordo plenamente com o que você disse, mas se refere à digressão em vez do ponto principal - que é minha culpa por adicionar a digressão em primeiro lugar. de qualquer forma, o ponto principal é que, como vários outros sugeriram, o OP realmente precisa fazer é entender melhor a matemática e as estatísticas teóricas. em nenhum lugar do post isso indica que ele precisa de ajuda para aplicar mais testes estatísticos. ele pode fazer isso. ele deseja entendê-los mais profundamente. para isso, a C&B é melhor do que aprender mais a preparação orientada para a aplicação.
Vincent Laufer
3

Esta não pretende ser uma resposta completa, é apenas uma sugestão. Se você quiser aprender mais sobre estatísticas (a base), leia:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Este é um livro bastante padrão para estatísticos e tem muitos resultados interessantes. Você não precisa passar por todas as provas dos teoremas, mas pode querer fazer alguns exercícios para se sentir mais seguro com os resultados.

Se você quiser aprender mais sobre econometria (modelos de dados), pode dar uma olhada em:

Hayashi, F. (2000): Econometrics, Princeton University Press

Alguém na verdade perguntou algo semelhante ao que você pediu e obteve uma boa resposta: O que fazer após "Casella & Berger" .

Além disso, se você realmente pretende ler esses livros, este currículo de um curso de econometria pode fornecer uma orientação e um ritmo bastante bons sobre o que ler (CB & Hayashi) e quando ler.

Guilherme Salomé
fonte
Obrigado pela sugestão, no entanto, o primeiro livro que você menciona tem cerca de 660 páginas ... Eu li livros maiores, mas há algo pequeno, simples e rápido para que eu possa entender o básico?
Juan Antonio Gomez Moriano
3
Casella e Berger fornecerão uma parte da teoria da estatística, mas você aprenderá muito pouco sobre análise de dados.
Glen_b
1
@JuanAntonioGomezMoriano quão pequeno você era? Eu sempre fui fã de Como mentir com as estatísticas como ponto de partida.
Icc97 13/10/2015
(-1) Essas parecem escolhas perfeitas para alguém que prefere uma abordagem matemática ou teórica da estatística, praticamente o oposto do que o OP solicitou.
Gala
1
Ele disse que precisava de um conhecimento mais "formal" e de conhecimentos básicos sobre estatística.
Guilherme Salomé
2

Eu sugeriria um novo livro que saiu desde a pergunta original: Repensar Estatística: Um Curso Bayesiano com Exemplos em R e Stan por Richard McElreath, CRC Press.

É muito bem escrito e usa uma abordagem bayesiana. É muito interativo, e você vai querer resolver os problemas ou pode ficar na metade e começar a se perder.

Começa muito básico e termina com modelos de vários níveis, e é direcionado a cientistas razoavelmente avançados que têm algum conhecimento estatístico, mas não se sentem à vontade em geral com as estatísticas, como lhes foi ensinado. Portanto, não posso dizer exatamente que é um livro para iniciantes, mas começa de maneira muito simples e ele tem um estilo e um arco maravilhosos.

A parte "Stan" do título é uma ferramenta de amostragem bayesiana de uso geral. Essencialmente, é uma linguagem de programação que é compilada automaticamente em C ++ e depois compilada em um executável. (A inferência bayesiana é geral, diferentemente das alternativas, para que você possa ter uma ferramenta generalizada.)

Wayne
fonte
1

Achei que eu daria essa resposta para a posteridade, mesmo que seja tarde demais para ser útil para você. O All Of Statistics de Larry Wasserman foi concebido como um curso para pessoas com experiência em aprendizado de máquina, outras disciplinas de ciências da computação ou matemática que não tinham nenhum treinamento formal em estatística - ou seja, pessoas em praticamente exatamente sua situação atual. Tendo uma falta semelhante de estatísticas formais, alguns amigos e eu formamos um grupo de auto-estudo para passar por isso na pós-graduação. Eu acho que realmente me beneficiei dessa experiência.

Os tópicos extras apresentados por Wasserman além do material típico do curso "probabilidade e inferência estatística", como modelos gráficos e bootstrap, são particularmente relevantes para quem trabalha em aprendizado de máquina. Devo dizer que o livro pode ser bem conciso em comparação com algo como Casella & Berger; portanto, se você quiser mais detalhes ou motivação para certas partes (especialmente provas), talvez seja necessário complementá-lo com outro material de leitura. Dito isto, também achei o livro claramente escrito com um bom número de problemas de prática, e é uma excelente referência rápida.

Um mês não é muito tempo. Se você definir um ritmo muito agressivo, acho que certamente poderá tirar muito proveito desse texto em um semestre: fizemos nosso grupo de auto-estudo durante o verão, por exemplo. Isso é especialmente verdade se você estiver interessado principalmente em modelagem linear, que será atingido por Ch. 13-14.

Patrick B.
fonte