O matemático quer o conhecimento equivalente a um grau de estatísticas de qualidade

77

Eu sei que as pessoas gostam de fechar duplicatas por isso estou não pedir uma referência para iniciar as estatísticas de aprendizagem (como aqui ).

Tenho doutorado em matemática, mas nunca aprendi estatística. Qual é o caminho mais curto para o conhecimento equivalente a um nível superior de estatística em BS e como faço para medir quando o alcancei?

Se uma lista de livros for suficiente (supondo que eu faça os exercícios, digamos), isso é fantástico. Sim, espero que resolver problemas seja uma parte implícita da aprendizagem, mas quero acelerar o máximo possível de forma realista. Não estou procurando um tratamento insanamente rigoroso, a menos que seja parte do que os especialistas em estatística geralmente aprendem.

John Robertson
fonte
1
que campo da matemática você recebeu seu doutorado? Isso pode ser relevante.
Mcktas
7
Você poderia compartilhar conosco por que deseja aprender estatísticas? Curiosidade? Necessário para um projeto ou pesquisa? Quer mudar de emprego? Precisa dar alguns cursos? Deseja colaborar com estatísticos como a pessoa teórica?
whuber
5
Eu acho que quase sempre é importante desenvolver conhecimentos específicos de domínio também. Muitas estatísticas estão aprendendo os modelos relevantes para campos específicos.
Tristan
10
Tente reverter "o estatístico quer um conhecimento equivalente a um diploma de matemática de qualidade" - não é provável que haja rotas rápidas.
probabilityislogic
1
"Eu sei que as pessoas gostam de fechar duplicatas" me fez rir.
Mustafa S Eisa

Respostas:

77

(Muito) conto

Para encurtar a história, em certo sentido, as estatísticas são como qualquer outro campo técnico: não há caminho rápido .

Longa história

Os programas de bacharelado em estatística são relativamente raros nos EUA. Uma razão pela qual acredito que isso é verdade é que é muito difícil incluir tudo o que é necessário para aprender estatística em um currículo de graduação. Isso é particularmente verdadeiro em universidades que possuem requisitos significativos de educação geral.

Desenvolver as habilidades necessárias (matemáticas, computacionais e intuitivas) exige muito esforço e tempo. As estatísticas podem começar a ser entendidas em um nível "operacional" bastante decente, uma vez que o aluno domina o cálculo e uma quantidade decente de álgebra linear e matricial. No entanto, qualquer estatístico aplicado sabe que é muito fácil encontrar-se em território que não está de acordo com uma abordagem estatística de receitas ou com base em receitas ou bolachas. Para realmente entender o que está acontecendo abaixo da superfície, é necessário como pré - requisitomaturidade matemática e, no mundo de hoje, maturidade computacional que só são realmente atingíveis nos anos posteriores da graduação. Esta é uma das razões pelas quais o verdadeiro treinamento estatístico começa principalmente no nível do MS nos EUA (a Índia, com seu ISI dedicado, é uma história um pouco diferente. Um argumento semelhante pode ser feito para alguma educação baseada no Canadá. Não estou familiarizado o suficiente com Ensino de estatística de graduação na Europa ou na Rússia para ter uma opinião informada.)

Quase qualquer trabalho (interessante) exigiria uma educação de nível de MS e os trabalhos realmente interessantes (na minha opinião) exigiriam essencialmente uma educação de nível de doutorado.

Visto que você tem um doutorado em matemática, apesar de não sabermos em que área, aqui estão minhas sugestões para algo mais próximo de uma educação em nível de MS. Incluo algumas observações entre parênteses para explicar as escolhas.

  1. D. Huff, Como mentir com as estatísticas . (Leitura muito rápida e fácil. Mostra muitas das idéias e armadilhas conceituais, em particular, na apresentação de estatísticas ao leigo.)
  2. Mood, Graybill e Boes, Introdução à Teoria da Estatística , 3ª ed., 1974. (Introdução ao nível do MS às estatísticas teóricas. Você aprenderá sobre distribuições de amostras, estimativa de pontos e teste de hipóteses em uma estrutura clássica e freqüentadora. a opinião é de que isso geralmente é melhor e um pouco mais avançado do que as contrapartes modernas, como Casella & Berger ou Rice.)
  3. Seber & Lee, Linear Regression Analysis , 2a ed. (Estabelece a teoria por trás da estimação de pontos e teste de hipóteses para modelos lineares, que provavelmente é o tópico mais importante a ser entendido em estatística aplicada. Como você provavelmente tem um bom histórico de álgebra linear, deve entender imediatamente o que está acontecendo geometricamente , que fornece muita intuição. Também possui boas informações relacionadas a problemas de avaliação na seleção de modelos, desvios de premissas, previsões e versões robustas de modelos lineares.)
  4. Hastie, Tibshirani e Friedman, Elements of Statistical Learning , 2ª ed., 2009. (Este livro tem um sentimento muito mais aplicado do que o anterior e abrange amplamente muitos tópicos modernos de aprendizado de máquina. A principal contribuição aqui é fornecer interpretações estatísticas de muitas idéias de aprendizado de máquina, que compensa particularmente em quantificar a incerteza em tais modelos. Isso é algo que tende a não ser abordado em livros típicos de aprendizado de máquina. Legalmente disponível aqui gratuitamente .)
  5. A. Agresti, Categorical Data Analysis , 2a ed. (Boa apresentação de como lidar com dados discretos em uma estrutura estatística. Boa teoria e bons exemplos práticos. Talvez do lado tradicional em alguns aspectos.)
  6. Boyd & Vandenberghe, Otimização Convexa . (Muitos dos mais populares problemas modernos de estimativa estatística e teste de hipóteses podem ser formulados como problemas de otimização convexos. Isso também vale para inúmeras técnicas de aprendizado de máquina, por exemplo, SVMs. Ter um entendimento mais amplo e a capacidade de reconhecer problemas como programas convexos é bastante valioso, eu acho. Legalmente disponível gratuitamente aqui .)
  7. Efron & Tibshirani, Uma Introdução ao Bootstrap . (Você deve pelo menos estar familiarizado com a inicialização e as técnicas relacionadas. Para um livro, é uma leitura rápida e fácil.)
  8. J. Liu, Estratégias de Monte Carlo em Computação Científica ou P. Glasserman, Métodos de Monte Carlo em Engenharia Financeira . (O último parece muito direcionado a uma área de aplicação específica, mas acho que dará uma boa visão geral e exemplos práticos de todas as técnicas mais importantes. As aplicações de engenharia financeira impulsionaram uma boa quantidade de pesquisas em Monte Carlo na última década. .)
  9. E. Tufte, a exibição visual de informações quantitativas . (A boa visualização e apresentação dos dados é [altamente] subestimada, mesmo pelos estatísticos.)
  10. J. Tukey, Análise Exploratória de Dados . (Padrão. Oldie, mas goodie. Alguns podem dizer desatualizado, mas ainda vale a pena dar uma olhada.)

Complementos

Aqui estão alguns outros livros, principalmente de natureza um pouco mais avançada, teórica e / ou auxiliar, que são úteis.

  1. FA Graybill, Teoria e Aplicação do Modelo Linear . (À moda antiga, péssima tipografia, mas abrange todo o mesmo terreno de Seber & Lee e mais. Digo antiquado, porque tratamentos mais modernos provavelmente tenderiam a usar o SVD para unificar e simplificar muitas técnicas e provas.)
  2. FA Graybill, matrizes com aplicações em estatística . (Texto complementar para o acima. Uma grande quantidade de bons resultados de álgebra matricial é útil para estatísticas aqui. Ótima referência de mesa.)
  3. Devroye, Gyorfi e Lugosi, uma teoria probabilística do reconhecimento de padrões . (Texto rigoroso e teórico sobre quantificação de desempenho em problemas de classificação.)
  4. Brockwell & Davis, Série Temporal: Teoria e Métodos . (Análise clássica de séries temporais. Tratamento teórico. Para os mais aplicados, os textos de Box, Jenkins & Reinsel ou Ruey Tsay são decentes.)
  5. Motwani e Raghavan, algoritmos aleatórios . (Métodos probabilísticos e análise de algoritmos computacionais.)
  6. D. Williams, Probabilidade e Martingales e / ou R. Durrett, Probabilidade: Teoria e Exemplos . (Caso você tenha visto a teoria da medida, digamos, no nível de DL Cohn, mas talvez não a teoria da probabilidade. Ambos são bons para acelerar rapidamente se você já conhece a teoria da medida.)
  7. F. Harrell, Estratégias de Modelagem de Regressão . (Não é tão bom quanto o Elements of Statistical Learning [ESL], mas tem uma abordagem diferente e interessante. Abrange mais tópicos de estatística aplicada "tradicionais" do que a ESL e, portanto, vale a pena conhecer, com certeza.)

Textos mais avançados (nível de doutorado)

  1. Lehmann e Casella, Teoria da Estimativa de Pontos . (Tratamento de estimativa de pontos no nível de doutorado. Parte do desafio deste livro é lê-lo e descobrir o que é um erro de digitação e o que não é. Quando você se vê reconhecendo-os rapidamente, saberá que entende. Há muita prática desse tipo, especialmente se você se aprofundar nos problemas.)

  2. Lehmann e Romano, testando hipóteses estatísticas . (Tratamento em nível de doutorado de teste de hipóteses. Não há tantos erros de digitação quanto o TPE acima.)

  3. A. van der Vaart, Estatística Assintótica . (Um belo livro sobre a teoria assintótica da estatística com boas dicas sobre áreas de aplicação. Embora não seja um livro aplicado. Minha única dúvida é que alguma notação bastante bizarra é usada e, às vezes, os detalhes são escovados sob o tapete.)

cardeais
fonte
1
@ cardinal, ex-universidades soviéticas têm estudos estatísticos de graduação separados. Na Universidade de Vilnius, por exemplo, você pode obter um diploma de bacharel em estatística. Pelo que vejo com os alunos, concordo plenamente que a educação de mestrado ou mesmo doutorado é necessária para trabalhos interessantes.
mpiktas 22/02
1
@ cardinal, @mpiktas 4 anos em BS + 2 anos em MS + 4 anos em PhD faz dez anos para aprender algo interessante :) Eu daria a essa ótima resposta, se possível. A maioria dos livros é nova para mim. +
Dmitrij Celov
2
@ John Salvatier, você está certo de que esses métodos não são abordados neste texto. Por outro lado, isso me parece mais uma questão de gosto, principalmente porque o foco principal do texto não está nos algoritmos. A saber, suas preocupações são abordadas diretamente pelos autores na introdução (pág. 13).
cardeal
2
@ cardinal: as universidades escandinavas geralmente oferecem graus de bacharel também. Dito isto, acho que os estatísticos se levam a sério demais. Discordo que você precisaria de um doutorado para conseguir um emprego "interessante". Acredito que, à medida que a ciência e a pesquisa se tornam mais e mais estatísticas interdisciplinares foram impostas a estudos de diversas áreas. Metade dos artigos de periódicos de alto impacto possui alguma análise estatística questionável, apenas para atender às demandas, mesmo que isso não faça sentido, dado no contexto / domínio original do problema.
posdef
1
O livro @cardinal Mood foi uma ótima sugestão, porque hoje em dia é difícil encontrar um livro introdutório sobre estatística que seja formal o suficiente para alguém com formação em matemática. Alguém já leu este livro novo livro? Panateros, "Statistics for Matemmaticians" springer.com/us/book/9783319283395
Igor Fobia
11

Não posso falar pelas escolas mais rigorosas, mas estou fazendo um bacharelado em Estatística Geral (a mais rigorosa da minha escola) na Universidade da Califórnia, Davis, e existe uma quantidade bastante pesada de confiança no rigor e na derivação. Um doutorado em matemática será útil, pois você terá uma sólida formação em análise real e álgebra linear - habilidades úteis em estatística. Meu programa de estatística tem cerca de 50% dos cursos para apoiar os fundamentos (álgebra linear, análise real, cálculo, probabilidade, estimativa), e os outros 50% são direcionados a tópicos especializados que se apóiam nos fundamentos (não paramétricos, computação, ANOVA / Regressão, séries temporais, análise bayesiana).
Depois de obter os fundamentos, pular para os detalhes geralmente não é muito difícil. A maioria das pessoas nas minhas aulas luta com as provas e a análise real e apreende facilmente os conceitos estatísticos; portanto, a experiência em matemática definitivamente ajudará. Dito isto, os dois textos a seguir têm uma cobertura muito boa de muitos tópicos abordados em estatística. Ambos foram recomendados no link que você forneceu, a propósito, então eu não diria que sua pergunta e a que você vinculou são necessariamente não correlacionadas.

Métodos Matemáticos de Estatística , por Harald Cramer

Todas as estatísticas: um curso conciso em inferência estatística , de Larry Wasserman

Christopher Aden
fonte
3
+1 Todas as estatísticas: seria um ótimo lugar para começar.
Simon Byrne
1
o programa UC-Davis parece bom e acho que você terá uma ótima educação por lá. Eu não consideraria isso "menos rigoroso" do que em outros lugares. Eu pensei que o comentário na página "grau integrado BS / MS" era interessante e relevante para o tópico: "Existe uma alta demanda por estatísticos, mas o conhecimento e a habilidade obtidos por aqueles com um diploma em estatística geralmente não são suficientes para as necessidades no local de trabalho [governamental ou industrial] ".
cardeal
9

A Royal Statistical Society no Reino Unido oferece o Diploma de Graduação em Estatística, que está no nível de um bom diploma de bacharel. Um currículo, lista de leitura e artigos anteriores estão disponíveis em seu site . Eu sei que matemáticos o usam para acelerar a estatística. Fazer os exames (oficialmente ou no conforto de seu próprio estudo) pode ser uma maneira útil de avaliar quando você está lá.

Scortchi - Restabelecer Monica
fonte
3
Os exames do Diploma de graduação são efetivamente os exames de graduação do último ano; para fins de "preparação", há certificados de nível inferior que podem ser obtidos primeiro. Os exames de RSS estão disponíveis, se bem me lembro, em todo o mundo, com exceção de Hong Kong (que tem sua própria sociedade estatística e exames). Uma alternativa é o diploma de graduação em estatística oferecido pelo ensino à distância pela Open University no Reino Unido, mas novamente disponível em todo o mundo. Este é um nível ligeiramente inferior ao do RSS Grad Dip, portanto pode ser visto como uma preparação para ele. Como um curso ministrado, é substancialmente mais caro.
quer
5

Eu acessava os sites de currículo das principais escolas de estatística, anotava os livros que eles usam em seus cursos de graduação, veria quais são altamente cotados na Amazon e os encomendaria na sua biblioteca pública / universidade.

Algumas escolas a considerar:

Complemente os textos com os vários sites de vídeos de palestras, como o MIT OCW e o videolectures.net.

A Caltech não possui graduação em estatística, mas você não errará ao seguir o currículo de seus cursos de estatística.

Neil McGuigan
fonte
1
isso parece um pouco de uma lista estranha. Que eu saiba, Carnegie Mellon é a única escola nessa lista que (formalmente) oferece uma graduação em estatística. Nem o Caltech nem o MIT têm programas de pós-graduação em estatística.
cardeal
@cardeal. por que você deve duvidar de mim? :) Coloquei links para os cursos de estatística de graduação nessas instituições. Além disso, os cursos das melhores escolas serão combinados e seguirão o caminho de uma escola pior.
Neil McGuigan
2
O OCW é certamente um recurso muito bom e uma ótima iniciativa. Não há dúvida disso. Quanto à sua afirmação de que misturar e combinar as "melhores escolas" é uma solução superior, acho isso altamente suspeito, principalmente para os estudos de graduação. Embora um aluno altamente motivado tenha uma boa graduação em qualquer uma dessas escolas, uma boa ou melhor pode ser encontrada em muitas, muitas escolas "piores". Escolas como as que você lista tendem a "vencer" a pós-graduação, eu diria.
cardeal
2
Na verdade, essa foi a primeira coisa que tentei. Eu tentei isso antes de postar a pergunta. Não foi difícil encontrar uma lista de cursos, mas foi muito mais difícil encontrar informações sobre quais livros realmente foram usados ​​para esses cursos e quais seções foram cobertas.
John Robertson
3

Vi a Inferência Estatística, de Silvey, usada por matemáticos que precisavam de alguma compreensão cotidiana das estatísticas. É um livro pequeno e, por direito, deve ser barato. Olhando para http://www.amazon.com/Statistical-Inference-Monographs-Statistics-Probability/dp/0412138204/ref=sr_1_1?ie=UTF8&s=books&qid=1298750064&sr=1-1 , parece ser barato em segunda mão.

É antigo e concentra-se nas estatísticas clássicas. Embora não seja altamente abstrato, ele é destinado a um público razoavelmente matemático - muitos dos exercícios são do Diploma de Cambridge (Reino Unido) em Estatística Matemática, que é basicamente um mestrado.

Mcdowella
fonte
3

Com relação à medição de seu conhecimento: Você pode participar de algumas competições de mineração / análise de dados, como 1 , 2 , 3 , 4 , e ver como obtém uma pontuação em comparação com outras.

Existem muitas dicas para livros didáticos sobre estatística matemática nas respostas. Gostaria de adicionar como tópicos relevantes:

  • o componente empírico de pesquisa social, que compreende a teoria da amostragem, padrões sociodemográficos e regionais
  • gerenciamento de dados, que inclui conhecimento sobre bancos de dados (gravação de consultas SQL, esquemas comuns de bancos de dados)
  • comunicação, como apresentar resultados de forma que o público permaneça acordado (métodos de visualização)

Disclaimer: Eu não sou um estatístico, estes são apenas meus 2 centavos

Karsten W.
fonte
3

ET Jaynes "Teoria da Probabilidade: A Lógica da Ciência: Princípios e Aplicações Elementares Vol 1", Cambridge University Press, 2003 é praticamente uma leitura obrigatória para o lado bayesiano da estatística, no nível certo. Estou ansioso por recomendações para o lado freqüentista das coisas (tenho muitas monografias, mas muito poucos bons textos gerais).

Dikran Marsupial
fonte
3
Eu sugeriria É uma leitura obrigatória para qualquer um que quer ser um bom estatístico, freqüentista, Bayesian ou qualquer outra coisa.
probabilityislogic
10
Eu discordo, o livro de Jaynes é uma péssima recomendação nessas circunstâncias: 1) a notação é desleixada e fora do padrão, o que dificulta a referência cruzada com outras fontes; 2) ele é muito empolgado e fica atolado em argumentos tolos e irrelevantes (o OP pediu o "caminho mais curto") 3) há também os erros (como o paradoxo marginalização)
Simon Byrne
1
@Dikran Marsupial, você é o proprietário do texto Schervish sobre inferência estatística? Eu estive em dúvida sobre comprar ou não, então fiquei curioso, já que você parece se alinhar fortemente com a abordagem bayesiana.
cardeal
1
Eu não diria que estava fortemente alinhado com a abordagem bayesiana. É a abordagem que eu entendo melhor, que não é a mesma coisa. Essencialmente, eu sou um engenheiro e quero as duas ferramentas na minha caixa de ferramentas, mantidas em boas condições! Um entendimento adequado dos benefícios e desvantagens de cada abordagem é o que devemos buscar. Não tenho o livro dos Shervishes, mas li um artigo dele sobre os fatores de Bayes que me pareciam bastante defeituosos (vou ver se consigo encontrá-lo e postar uma pergunta para alguém me explicar!).
Dikran Marsupial
@ Dikran, sua pergunta (potencial) parece interessante. Estou ansioso para um post sobre ele.
cardeal
3

Eu venho de uma formação em ciência da computação com foco em aprendizado de máquina. No entanto, comecei realmente a entender (e mais importante a aplicar) as estatísticas depois de fazer um curso de reconhecimento de padrões usando o Bishop's Book https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book

Aqui estão alguns slides do curso do MIT:
http://www.ai.mit.edu/courses/6.867-f03/lectures.html

Isso fornecerá apenas o plano de fundo (+ algum código do matlab) para usar estatísticas para problemas reais de trabalho e é definitivamente mais do lado aplicado.

No entanto, depende muito do que você deseja fazer com o seu conhecimento. Para obter uma medida de como você é bom, convém procurar no curso aberto de alguma universidade cursos de estatística avançada, para verificar se você conhece os tópicos abordados. Apenas meus 5 centavos.

kgarten
fonte
1

Acho que Stanford oferece os melhores recursos quando se trata de flexibilidade. Eles ainda têm um curso de aprendizado de máquina on-line que forneceria uma base respeitável de conhecimento quando se trata de projetar algoritmos em R. Pesquise no Google e ele o redirecionará para a página de Lagunita, onde eles têm alguns cursos interessantes, a maioria deles eles sendo livres. Eu tenho os livros de Tibshirani, Introdução ao aprendizado estatístico 'e' Elementos do aprendizado estatístico 'em formatos PDF e ambos são recursos extremamente bons.

Como você é matemático, eu ainda aconselho você a não acelerar, pois isso não fornecerá uma base sólida que você pode achar muito útil no futuro, se começar a aprender a sério a máquina. Trate as estatísticas como um ramo da matemática para obter insights dos dados, e isso requer algum trabalho. Fora isso, existem muitos recursos online, Johns Hopkins fornece coisas semelhantes às de Stanford. Embora a experiência sempre pague, uma credencial respeitável sempre reforçará essa base. Você também pode pensar nos campos específicos que gostaria de inserir; com isso, quero dizer se você deseja entrar em análise de texto ou aplicar suas habilidades de matemática e estatísticas em finanças. Eu venho na última categoria, então eu tenho uma licenciatura em econometria, onde estudamos finanças + estatística. Uma combinação sempre pode ser muito boa.

Shiv_90
fonte