O que aprender depois da Casella & Berger?

22

Sou um estudante de matemática pura, com pouco conhecimento em matemática aplicada. Desde o outono passado, tenho estudado o livro de Casella e Berger e já terminei centenas (230+) de páginas de problemas de exercícios no livro. Agora estou no capítulo 10.

No entanto, como não me formei em estatística ou planejei ser estatístico, acho que não poderei investir tempo regularmente para continuar aprendendo a análise de dados. Minha experiência até agora está me dizendo que, para ser estatístico, é preciso suportar muita computação tediosa envolvendo várias distribuições (Weibull, Cauchy, , ...). Descobri que, embora as idéias fundamentais sejam simples, a implementação (por exemplo, o LRT no teste de hipóteses) ainda pode ser difícil devido a aspectos técnicos.tF

Meu entendimento está correto? Existe uma maneira de aprender probabilidades e estatísticas que não apenas abranjam materiais mais avançados, mas também ajudem caso eu precise de análise de dados na vida real? Vou precisar de passar 20 horas por semana nele como eu costumava fazer?

Embora eu acredite que não exista caminho real no aprendizado de matemática, muitas vezes não consigo deixar de me perguntar - na maioria das vezes não sabemos qual é a distribuição dos dados da vida real, então qual é o objetivo de nos concentrarmos exclusivamente em várias famílias de distribuições ? Se o tamanho da amostra é pequeno e o teorema do limite central não se aplica, como podemos analisar adequadamente os dados além da média e variação da amostra, se a distribuição for desconhecida?

Meu semestre terminará em um mês e não quero que meu conhecimento evapore depois que começar a me concentrar na minha pesquisa de doutorado. Então eu decidi perguntar. Estou aprendendo R e tenho alguns conhecimentos de programação, mas meu nível é quase o mesmo que um macaco de código.

Bombyx mori
fonte

Respostas:

24

Eu não acho que poderei investir regularmente em tempo para continuar aprendendo a análise de dados

Não acho que a Casella & Berger seja um lugar para aprender muito sobre a análise de dados . É um lugar para aprender algumas das ferramentas da teoria estatística.

Até agora, minha experiência me dizendo para ser uma estatística é necessária com muita computação tediosa envolvendo várias distribuições (Weibull, Cauchy, t, F ...).

Passei muito tempo como estatístico fazendo análise de dados. Raramente (quase nunca) me envolve fazendo cálculos tediosos. Às vezes, envolve um pouco de álgebra simples, mas os problemas comuns geralmente são resolvidos e eu não preciso fazer nenhum esforço para replicá-lo a cada vez.

O computador faz todo o cálculo tedioso.

Se estou em uma situação em que não estou preparado para assumir um caso razoavelmente padrão (por exemplo, não preparado para usar um GLM), geralmente também não tenho informações suficientes para assumir qualquer outra distribuição; portanto, a questão dos cálculos em O LRT geralmente é discutível (eu posso fazê-los quando preciso, eles apenas tendem a ser resolvidos ou aparecem tão raramente que é uma diversão interessante).

Eu costumo fazer muita simulação; Também tento frequentemente usar a reamostragem de alguma forma, ao lado ou no lugar de suposições paramétricas.

Precisarei gastar mais de 20 horas por semana como costumava fazer?

Depende do que você quer poder fazer e de quanto tempo você quer ficar bom nisso.

A análise de dados é uma habilidade e requer prática e uma grande base de conhecimento. Você já terá um pouco do conhecimento necessário.

Se você quer ser um bom praticante em uma ampla variedade de coisas, levará muito tempo - mas, na minha opinião, é muito mais divertido que a álgebra e os exercícios de Casella e Berger.

Algumas das habilidades que desenvolvi dizem que os problemas de regressão são úteis nas séries temporais, por exemplo - mas são necessárias muitas novas habilidades. Portanto, aprender a interpretar gráficos residuais e gráficos de QQ é útil, mas eles não me dizem o quanto eu preciso me preocupar com um pequeno inchaço em um gráfico PACF e não me fornecem ferramentas como o uso de previsão um passo à frente erros.

Assim, por exemplo, não preciso me esforçar para descobrir como fazer o ML razoavelmente para modelos típicos de gama ou bico , porque eles são padrão o suficiente para serem resolvidos problemas que já foram amplamente colocados em uma forma conveniente.

Se você vier fazer pesquisas , precisará de muito mais habilidades que adquiriu em lugares como Casella & Berger (mas mesmo com esse tipo de habilidades, você também deve ler mais de um livro).


Algumas coisas sugeridas:

Você definitivamente deve desenvolver algumas habilidades de regressão, mesmo que não faça mais nada.

Há vários livros muito bons, mas talvez a Draper & Smith Applied Regression Analysis mais a Fox e Weisberg An R Companion to Applied Regression ; Eu também sugeriria que você considerasse seguir as estratégias de modelagem de regressão de Harrell

(Você pode substituir Draper e Smith por vários bons livros - encontre um ou dois que sejam adequados para você.)

O segundo livro possui vários capítulos on-line que valem muito a pena ler (e seu próprio pacote R)

-

Uma boa segunda porção seria Venables & Ripley Estatística Aplicada moderno com S .

Isso é uma base de uma gama bastante ampla de idéias.

Pode acontecer que você precise de algum material mais básico em alguns tópicos (não conheço sua formação).

Então você precisa começar a pensar em quais áreas das estatísticas você deseja / precisa - estatísticas bayesianas, séries temporais, análise multivariada, etc etc

Glen_b
fonte
6

Meu conselho, vindo da perspectiva oposta (aluno de doutorado em estatísticas), é trabalhar com um livro de regressão. Este parece um ponto de partida natural para alguém com uma sólida formação teórica sem nenhuma experiência aplicada. Sei que muitos estudantes de fora do nosso departamento iniciam um curso de regressão.

Uma boa é a regressão linear aplicada de Sanford Weisberg . Eu acredito que está em sua quarta versão. Você provavelmente poderia encontrar versões antigas relativamente baratas.

http://users.stat.umn.edu/~sandy/alr4ed/

Uma coisa legal desse livro, principalmente dada a sua relativa inexperiência com o R, é o primer R disponível no link acima. Ele fornece instruções suficientes para recriar tudo o que é feito no livro. Dessa forma, você pode realmente aprender a regressão (além de alguns princípios básicos do GLM), sem sua falta de programação R o atrasar (e você provavelmente aprenderá muitos dos princípios básicos do R ao longo do caminho).

Se você deseja uma introdução abrangente ao R, pode ser melhor atendido em An R Companion to Applied Regression , da Fox e Weisberg , mas parece que você prefere aprender estatística do que programação (se essas duas coisas puderem ser pensadas separadamente).

No que diz respeito ao seu compromisso com o tempo, realmente não acho que você ache este livro ou material excessivamente difícil. Ao contrário da Casella-Berger, não haverá muito em provas ou derivações. Geralmente é bem direto.

Como um aparte, parece haver soluções flutuando on-line (ou estavam em algum momento), para que você possa tentar problemas, verificar soluções e tipo de velocidade percorrer o livro.

user23658
fonte
4

Estou tentando, de maneira indireta, ser mais estatístico, mas sou principalmente um psicólogo que por acaso tem alguns interesses quantitativos e metodológicos. Para fazer o trabalho psicométrico corretamente, tenho estudado métodos avançados (para um psicólogo) que eu nem sonharia em calcular manualmente (muito menos saberia como). Fiquei surpreso com o quão acessíveis e convenientes esses métodos se tornaram através de todos os esforços dedicados dos programadores de pacotes R na última década. Tenho feito análises da vida real com novos métodos que aprendi a usar em muito menos de 20 horas por método ... Talvez eu gaste tanto tempo em um novo método quando estiver pronto para publicar um resultado, mas certamente não há necessidade de fazer um trabalho de meio período estudando apenas para progredir como eu. Faça o que puder ao encontrar tempo para isso; não é uma busca do tipo tudo ou nada, se você não precisa.

Certamente não me concentrei exclusivamente em nenhum tópico, muito menos em famílias de distribuições; Duvido que qualquer estatístico honesto quanto à bondade também estude tão estreitamente. Eu me envolvi em distribuições teóricas por talvez uma hora por dia em algumas ocasiões na semana passada; isso foi suficiente para ser útil em aplicativos de dados reais. Até onde eu sei, a ideia não é tanto classificar estritamente as distribuições; é reconhecer formas de distribuição que se assemelham a teorias e usá-las para ajudar a decidir as análises apropriadas e entender a dinâmica básica. Compartilhei pensamentos semelhantes sobre minha resposta mais recente a " É melhor selecionar distribuições com base na teoria, adequação ou algo mais? "

Você não disse qual análise deseja realizar no que suponho ser o seu cenário hipotético de pior caso, mas existem maneiras de estudar a sensibilidade de qualquer análise ao erro de amostragem. Se o CLT não se aplicar, ainda há várias perguntas estatísticas que você pode perguntar se você sabe como. Os métodos não paramétricos geralmente fazem suposições muito limitadas sobre as distribuições; portanto, o conhecimento prévio da forma da distribuição de uma população não é necessariamente um grande problema.

O conhecimento em geral não evapora muito rapidamente ou completamente, mas se você não o usar, será mais difícil se lembrar livremente. Você manterá uma vantagem de reconhecimento por muito mais tempo, o que ainda pode ser útil se você precisar estudar tópicos que estudou vários anos antes ... mas se quiser permanecer fluente no que aprendeu, continue usando-o e continue aprendendo! R é definitivamente um bom lugar para investir qualquer tempo de estudo disponível. Também deve ajudar com sua matemática pura: consulte outra das minhas respostas recentes para " Melhor software de visualização de dados de código aberto para usar com o PowerPoint ".

Nick Stauner
fonte
3

Eu me deparei com este em 2019. Meus dois centavos.

Sou professor de estatística com tendência a fazer análise de dados de vários tipos (por isso escolhi a estatística!). Para adquirir algum conhecimento prático, recomendo James, Witten, Hastie e Tibshirani "Uma Introdução à Aprendizagem Estatística". Eles ainda têm um MOOC baseado nisso. O livro usa muitos exemplos de "dados reais" e também é baseado em R.

PA6OTA
fonte
Você tem algo a sugerir além de "elementos de aprendizagem estatística"? Acho que estou familiarizado com (partes básicas) do livro agora.
Bombyx mori 27/01
2

Respondendo a outras pessoas que chegam a essa pergunta mais tarde…


análise de dados da vida real

Aprenda bancos de dados (SQL), dplyr / pandas, ferramentas unix (sed, grep), raspagem, script, limpeza de dados e teste de software. As várias distribuições especializadas têm pouco valor na indústria.

Um livro de regressão aplicado, como Angrist & Pischke, Faraway ou Weisberg, será um tipo mais prático de teoria.

na maioria das vezes, não sabemos qual é a distribuição para os dados da vida real; portanto, qual é o objetivo de nos concentrarmos exclusivamente em várias famílias de distribuições

Daí o interesse em estatísticas não paramétricas. Mas, ao mesmo tempo, não paramétrico, sem suposições, é muito flexível. Para responder à sua pergunta, as famílias especializadas podem ser consideradas respostas para perguntas simples que você possa encontrar. Por exemplo, penso em um gaussiano como uma estimativa pontual "suave". Poisson responde outra pergunta simples. Quando as pessoas constroem modelos matemáticos, esses especiais podem ser pontos de apoio úteis. (Mas os acadêmicos geralmente tomam a busca pela distribuição principal da maneira errada.)

OP: Espero que você tenha se divertido com sua pesquisa de doutorado!

isomorfismos
fonte