Sou um estudante de matemática pura, com pouco conhecimento em matemática aplicada. Desde o outono passado, tenho estudado o livro de Casella e Berger e já terminei centenas (230+) de páginas de problemas de exercícios no livro. Agora estou no capítulo 10.
No entanto, como não me formei em estatística ou planejei ser estatístico, acho que não poderei investir tempo regularmente para continuar aprendendo a análise de dados. Minha experiência até agora está me dizendo que, para ser estatístico, é preciso suportar muita computação tediosa envolvendo várias distribuições (Weibull, Cauchy, , ...). Descobri que, embora as idéias fundamentais sejam simples, a implementação (por exemplo, o LRT no teste de hipóteses) ainda pode ser difícil devido a aspectos técnicos.
Meu entendimento está correto? Existe uma maneira de aprender probabilidades e estatísticas que não apenas abranjam materiais mais avançados, mas também ajudem caso eu precise de análise de dados na vida real? Vou precisar de passar 20 horas por semana nele como eu costumava fazer?
Embora eu acredite que não exista caminho real no aprendizado de matemática, muitas vezes não consigo deixar de me perguntar - na maioria das vezes não sabemos qual é a distribuição dos dados da vida real, então qual é o objetivo de nos concentrarmos exclusivamente em várias famílias de distribuições ? Se o tamanho da amostra é pequeno e o teorema do limite central não se aplica, como podemos analisar adequadamente os dados além da média e variação da amostra, se a distribuição for desconhecida?
Meu semestre terminará em um mês e não quero que meu conhecimento evapore depois que começar a me concentrar na minha pesquisa de doutorado. Então eu decidi perguntar. Estou aprendendo R e tenho alguns conhecimentos de programação, mas meu nível é quase o mesmo que um macaco de código.
fonte
Respondendo a outras pessoas que chegam a essa pergunta mais tarde…
Aprenda bancos de dados (SQL), dplyr / pandas, ferramentas unix (sed, grep), raspagem, script, limpeza de dados e teste de software. As várias distribuições especializadas têm pouco valor na indústria.
Um livro de regressão aplicado, como Angrist & Pischke, Faraway ou Weisberg, será um tipo mais prático de teoria.
Daí o interesse em estatísticas não paramétricas. Mas, ao mesmo tempo, não paramétrico, sem suposições, é muito flexível. Para responder à sua pergunta, as famílias especializadas podem ser consideradas respostas para perguntas simples que você possa encontrar. Por exemplo, penso em um gaussiano como uma estimativa pontual "suave". Poisson responde outra pergunta simples. Quando as pessoas constroem modelos matemáticos, esses especiais podem ser pontos de apoio úteis. (Mas os acadêmicos geralmente tomam a busca pela distribuição principal da maneira errada.)
OP: Espero que você tenha se divertido com sua pesquisa de doutorado!
fonte