Estou ajudando meus meninos, atualmente no ensino médio, a entender estatística, e estou pensando em começar com alguns exemplos simples, sem desconsiderar alguns vislumbres da teoria.
Meu objetivo seria fornecer a eles a abordagem mais intuitiva, mas instrumentalmente construtiva, para aprender estatística do zero, a fim de estimular o interesse deles em continuar buscando estatísticas e aprendizado quantitativo.
Antes de começar, porém, tenho uma pergunta específica com implicações muito gerais:
Deveríamos começar a ensinar estatística usando uma estrutura bayesiana ou freqüentista?
Pesquisando ao redor, vi que uma abordagem comum está começando com uma breve introdução sobre estatísticas freqüentistas, seguida de uma discussão aprofundada sobre estatísticas bayesianas (por exemplo, Stangl ).
Respostas:
As estatísticas bayesianas e as estatísticas freqüentistas são baseadas na teoria da probabilidade, mas eu diria que a primeira se apóia mais fortemente na teoria desde o início. Por outro lado, certamente o conceito de um intervalo confiável é mais intuitivo do que o de um intervalo de confiança, uma vez que o aluno tenha uma boa compreensão do conceito de probabilidade. Portanto, o que você escolher, defendo, antes de tudo, o entendimento de conceitos de probabilidade, com todos esses exemplos baseados em dados, cartas, roleta, paradoxo de Monty Hall, etc.
Eu escolheria uma abordagem ou outra com base em uma abordagem puramente utilitária: é mais provável que eles estudem estatísticas freqüentistas ou bayesianas na escola? No meu país, eles definitivamente aprenderiam a estrutura freqüentadora primeiro (e por último: nunca ouviram falar de estudantes do ensino médio que recebem estatísticas Bayesianas, a única chance é na universidade ou depois, por auto-estudo). Talvez no seu seja diferente. Lembre-se de que, se eles precisam lidar com o NHST (Teste de Significação de Hipótese Nula), isso surge mais naturalmente no contexto de estatísticas freqüentistas, a IMO. É claro que você também pode testar hipóteses na estrutura bayesiana, mas existem muitos estatísticos bayesianos líderes que defendem a não utilização do NHST, sob a estrutura frequentista ou bayesiana (por exemplo, Andrew Gelman, da Columbia University).
Finalmente, eu não sei sobre o nível de estudantes do ensino médio no seu país, mas no meu seria muito difícil para um aluno assimilar com êxito (o básico da) teoria das probabilidades e cálculo integral ao mesmo tempo. Portanto, se você decidir ir com as estatísticas bayesianas, eu realmente evitaria o caso de variáveis aleatórias contínuas e me ateria a variáveis aleatórias discretas.
fonte
Bayesiano e freqüentador fazem perguntas diferentes. Bayesian pergunta que valores de parâmetros são credíveis, dados os dados observados. Frequentist pergunta sobre a probabilidade de dados simulados imaginários se alguns valores de parâmetros hipotéticos eram verdadeiros. As decisões freqüentistas são motivadas pelo controle de erros; as decisões bayesianas são motivadas pela incerteza nas descrições dos modelos.
Então, o que você deve ensinar primeiro? Bem, se uma ou outra dessas perguntas é o que você deseja fazer primeiro, essa é sua resposta. Mas em termos de acessibilidade e pedagogia, acho que o bayesiano é muito mais fácil de entender e muito mais intuitivo. A idéia básica da análise bayesiana é a realocação de credibilidade entre as possibilidades, exatamente como Sherlock Holmes disse, e que milhões de leitores entenderam intuitivamente. Mas a idéia básica da análise freqüentista é muito desafiadora: o espaço de todos os conjuntos de dados possíveis que poderiam ter acontecido se uma hipótese específica fosse verdadeira e a proporção desses conjuntos de dados imaginários que têm uma estatística resumida tão ou mais extrema que o resumo estatística que foi realmente observada.
Um capítulo introdutório gratuito sobre idéias bayesianas está aqui . Um artigo que define conceitos freqüentistas e bayesianos lado a lado está aqui . O artigo explica abordagens freqüentistas e bayesianas para testar hipóteses e estimar (e muitas outras coisas). A estrutura do artigo pode ser especialmente útil para iniciantes que tentam ter uma visão da paisagem.
fonte
Essa pergunta corre o risco de ser baseada em opiniões, por isso vou tentar ser muito breve com a minha opinião e dar uma sugestão de livro. Às vezes, vale a pena adotar uma abordagem específica, porque é a abordagem adotada por um livro particularmente bom.
Concordo que as estatísticas bayesianas são mais intuitivas. A distinção Intervalo de Confiança versus Intervalo Credível resume bastante: as pessoas pensam naturalmente em termos de "qual é a chance disso ...", em vez da abordagem do Intervalo de Confiança. A abordagem do intervalo de confiança soa como se estivesse dizendo a mesma coisa que o intervalo de credibilidade, exceto por princípio geral que você não pode dar o último passo de "95% do tempo" para "95% de chance", o que parece muito frequente, mas você não posso fazer isso. Não é inconsistente, apenas não é intuitivo.
Equilibrando isso, o fato de que a maioria dos cursos universitários que eles fazem usará a abordagem freqüentista menos intuitiva.
Dito isto, gosto muito do livro Estatística Repensando: Um Curso Bayesiano com Exemplos em R e Stan de Richard McElreath. Não é barato, então leia sobre ele e dê uma olhada na Amazon antes de comprar. Acho que é uma abordagem particularmente intuitiva que tira proveito da abordagem bayesiana e é muito prática. (E como R e Stan são excelentes ferramentas para estatísticas bayesianas e são gratuitas, é um aprendizado prático.)
EDIT: Alguns comentários mencionaram que o livro provavelmente está além do ensino médio, mesmo com um tutor experiente . Portanto, terei que fazer uma ressalva ainda maior: ela tem uma abordagem simples no início, mas aumenta rapidamente. É um livro incrível, mas você realmente precisa vasculhá-lo na Amazon para ter uma idéia de suas suposições iniciais e da rapidez com que ele se intensifica. Belas analogias, excelente trabalho prático em R, fluxo e organização incríveis, mas talvez não sejam úteis para você.
Ele pressupõe um conhecimento básico de programação e R (pacote estatístico gratuito) e alguma exposição aos conceitos básicos de probabilidade e estatística. Não é de acesso aleatório e cada capítulo se baseia em capítulos anteriores. Começa muito simples, embora a dificuldade cresça no meio - termina na regressão em vários níveis. Portanto, você pode visualizar um pouco disso na Amazon e decidir se pode cobrir facilmente o básico ou se ele salta um pouco demais na estrada.
EDIÇÃO 2: O resultado final da minha contribuição aqui e a tentativa de desviá-la da opinião pura é que um bom livro pode decidir qual abordagem você adota. Eu preferiria uma abordagem bayesiana, e este livro faz isso bem, mas talvez em um ritmo muito rápido.
fonte
I have been taught the frequentist approach first, then the Bayesian one. I am not a professional statistician.
I have to admit I didn't find my prior knowledge of the frequentist approach to be decisively useful in understanding the Bayesian approach.
I would dare to say it depends on what concrete applications you will be showing your pupils next, and how much time and effort you will be spending on them.
Having said this, I would start with Bayes.
fonte
The Bayesian framework is tightly coupled to general critical thinking skills. It's what you need in the following situations:
Also, this is much more interesting than memorising the formula for a two sample t-test :p. Which increases the chance that students will stay interested long enough to bother with increasingly technical material.
fonte
No one has mentioned likelihood, which is foundational to Bayesian statistics. An argument in favor of teaching Bayes first is that the flow from probability, to likelihood, to Bayes, is pretty seamless. Bayes can be motivated from likelihood by noting that (i) the likelihood function looks (and acts) like a probability distribution function, but is not because the area under the curve is not 1.0, and (ii) the crude, commonly-used Wald intervals assume a likelihood function that is proportional to a normal distribution, but Bayesian methods easily overcome this limitation.
Another argument favoring Bayes first is that the P(A|B) versus P(B|A) concern about p-values can be more easily explained, as mentioned by others.
Yet another argument favoring "Bayes first" is that it forces students to think more carefully about conditional probability models, which is useful elsewhere, e.g., in regression analysis.
Sorry for the self-promotion, but since it is entirely on-topic, I do not mind stating that this is precisely the approach that Keven Henning and I took in our book "Understanding Advanced Statistical Methods," (https://peterwestfall.wixsite.com/book-1) whose intended audience is non-statisticians.
fonte
Are you teaching for fun and insight or for practical use? If it's about teaching and understanding, I'd go Bayes. If for practical purposes, I'd definitely go Frequentist.
In many fields -and I suppose most fields- of natural sciences, people are used to publish their papers with a p-value. Your "boys" will have to read other people's papers before they come to writing their own. To read other people's papers, at least in my field, they need to understand null hypotheses an p-values, no matter how stupid they may appear after Bayesian studies. And even when they are ready to publish their first paper, they will probably have some senior scientist leading the team and chances are, they prefer Frequentism.
That being said, I would like to concur with @Wayne , in that Statistical rethinking shows a very clear way towards Bayesian statistics as a first approach and not based on existing knowledge about Frequentism. It is great how this book does not try to convince you in a fight of the better or worse statistics. The stated argument of the author for Bayes is (IIRC) that he has been teaching both kinds and Bayes was easier to teach.
fonte
I would stay away from Bayesian, follow the giants.
Soviets had an excellent book series for secondary school students, roughly translated into English as "'Quant' little library." Kolmogorov contributed a book with co-authors titled "Introduction to a probability theory." I'm not sure it has ever been translated into English, but here's the link to its Russian original.
They approach explaining the probabilities through combinatorics, which I think is the great way to start. The book is very accessible for a high school student with decent maths. Note, that Soviets taught math rather extensively, so the average Western high school students may not be as well prepared, but with enough interest and will power can still handle the content, in my opinion.
The content is very interesting for students, it has random walks, limiting distributions, survival processes, law of large numbers etc. If you combine this approach with computer simulations, it becomes even more fun.
fonte