Sou um cientista de dados que trabalha com sólida experiência em regressão, outros algoritmos de tipo de aprendizado de máquina e programação (tanto para análise de dados quanto para desenvolvimento de software em geral). A maior parte da minha vida profissional foi focada na criação de modelos para precisão preditiva (trabalhando sob várias restrições de negócios) e na construção de pipelines de dados para dar suporte ao meu próprio trabalho (e de outros).
Não tenho formação formal em estatística, a minha educação universitária é focada em matemática pura. Como tal, não aprenderam muitos dos tópicos clássicos, especialmente os vários testes de hipóteses populares e técnicas inferenciais.
Existem referências a esses tópicos que seriam apropriadas para alguém com minha formação e nível de experiência? Eu posso lidar (e apreciar) o rigor matemático e também desfrutar de perspectivas algorítmicas. Costumo gostar de referências que ofereçam ao leitor exercícios guiados, com ambos (ou um) foco na matemática e (ou) na programação.
fonte
Respostas:
All of Statistics, de Larry Wasserman, é um bom livro para fazer um tour pelas estatísticas matemáticas. Foi o primeiro livro sobre estatística matemática que eu me usei. Ele inclui os clássicos, como teste de hipóteses e estimativa de probabilidade máxima, mas também possui ampla cobertura de tópicos desenvolvidos recentemente, mas igualmente importantes, como o bootstrapping. Wasserman sempre tem um pé na estatística e o outro no aprendizado de máquina, o que acho que todos os analistas de dados contemporâneos deveriam fazer; se você estiver familiarizado apenas com um campo dos dois, sentirá muita falta. Além disso, o livro tem muitos bons exercícios.
Se você tem experiência em análise real e deseja o material bruto e sem cortes, com o que quero dizer um tratamento teórico da medida da probabilidade e da estatística, tente a Teoria da Estatística de Mark J. Schervish . Schervish é metade de DeGroot e Schervish, cujo livro menos técnico, Probability and Statistics, é talvez o livro mais popular sobre estatística matemática atualmente. Teoria da Estatística é um livro útil para um tópico geralmente reservado para estudantes de pós-graduação que deveriam fazer todo o trabalho. Para ser sincero, achei este livro muito difícil (embora não tão difícil quanto as Estatísticas Matemáticas de Jun Shao) e acabou sentindo o imenso esforço necessário para dominá-lo. Não foi um bom uso do meu tempo como analista de dados aplicado. Mas eu ainda aprendi muito e saí com uma boa compreensão do que é a teoria da medida e como ela pode ser usada para limpar as difíceis dificuldades teóricas que surgem na abordagem tradicional mais ingênua da teoria da probabilidade. Também passei a apreciar melhor as semelhanças e diferenças de permutabilidade e independência.
fonte
Além das boas sugestões do Kodiologist (+1), eu também recomendaria examinar o assunto dos estudos observacionais . Eu acho que é um campo muito pouco apreciado entre cientistas de dados, apesar do fato de que em muitos casos os dados analisados são de natureza observacional. Eu acho que isso ocorre porque a maior parte da bibliografia (especialmente em Bioestatística) pressupõe que pelo menos algum projeto quase experimental já esteja em vigor. Os livros de Paul Rosenbaum, Observational Studies e Design of Observational Studies, são algumas das referências mais usadas.
fonte