Vou ensinar estatística como assistente de ensino no segundo semestre deste semestre a estudantes de graduação orientados para o ensino médio. A maioria dos alunos que frequentou a aula não tem incentivo para aprender a matéria e a levou apenas para os principais requisitos. Quero tornar o assunto interessante e útil, não apenas uma aula que eles aprendem a obter um B + para passar.
Como um estudante de doutorado em matemática pura, sabia pouco sobre o lado aplicado da vida real. Quero pedir algumas aplicações reais da estatística de graduação. Exemplos que estou procurando são aqueles (em espírito) como:
1) Mostrar o teorema do limite central é útil para certos dados de amostra grandes.
2) Forneça um contra-exemplo de que o teorema do limite central não é aplicável (por exemplo, os que seguem a distribuição de Cauchy).
3) Mostrando como o teste de hipóteses funciona em exemplos famosos da vida real usando o teste Z, teste t ou algo assim.
4) Mostrar como o excesso de ajuste ou a hipótese inicial errada podem dar resultados errados.
5) Mostrar como o valor de p e o intervalo de confiança funcionaram em casos da vida real (conhecidos) e onde eles não funcionam tão bem.
6) Da mesma forma, erros do tipo I, tipo II, poder estatístico, nível de rejeição , etc.
Meu problema é que, embora eu tenha muitos exemplos no lado da probabilidade (arremesso de moedas, arremesso de dados, ruína do jogador, martingales, caminhada aleatória, paradoxo dos três prisioneiros, problema de monty hall, métodos de probabilidade no design de algoritmos etc.), não sei como. muitos exemplos canônicos no lado das estatísticas. O que quero dizer são exemplos sérios e interessantes que têm algum valor pedagógico, e não é extremamente artificialmente inventado que parece muito distanciado da vida real. Não quero dar aos alunos a falsa impressão de que o teste Z e o teste T são tudo. Mas, devido à minha formação matemática pura, não conheço exemplos suficientes para tornar a aula interessante e útil para eles. Então, eu estou procurando por alguma ajuda.
O nível do meu aluno é em torno do cálculo I e II. Eles nem conseguem mostrar que a variação da normal padrão é 1 por definição, pois não sabem como avaliar o kernel gaussiano. Portanto, qualquer coisa um pouco teórica ou computacional prática (como distribuição hipergeométrica, arcos na lei em caminhada aleatória 1D) não vai funcionar. Quero mostrar alguns exemplos que eles podem entender não apenas "como", mas também "por que". Caso contrário, não tenho certeza se vou provar o que disse por intimidação.
fonte
Respostas:
Uma boa maneira pode ser instalar o R ( http://www.r-project.org/ ) e usar seus exemplos para o ensino. Você pode acessar a ajuda no R com os comandos "? T.test" etc. No final de cada arquivo de ajuda, há exemplos. Para t.test, por exemplo:
fonte
Sugiro uma aplicação do teorema do limite central para pré-determinação do tamanho da amostra e encontrar uma resposta para perguntas como "enviei questionários suficientes" etc.
http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf fornece um bom exemplo do mundo real de como aplicar o teorema do limite central. Uma estratégia didática pode ser:
Uma teoria
* deixar clara a diferença entre uma distribuição de amostragem e a distribuição de uma estimativa, por exemplo, pela distribuição "plana" de rolar um dado versus a distribuição da média de N dados (use R ou permita que os alunos se divirtam com o desenho do Excel único distribuições de valores versus distribuição de médias)
* mostre o cálculo baseado em fórmulas de percentis para a distribuição da média (como você estuda matemática, pode derivar a fórmula) - esse ponto corresponde aos slides 10 a 17 da apresentação vinculada acima
e depois (como no slide 20 da apresentação vinculada acima):
B) aplicação
* mostre como o teorema do limite central ajuda a determinar o tamanho da amostra para uma exatidão desejada nas estimativas da média
Esta aplicação B) é o que, na minha experiência, os não estatísticos esperam de um estatístico - respondendo a perguntas do tipo "tenho dados suficientes?"
fonte
Como você está ensinando estudantes de ciências da computação, uma boa aplicação do Teorema do Limite Central pode ser estimar a média de um conjunto de dados massivo (ou seja,> 100 milhões de registros). Pode ser instrutivo mostrar que não é necessário calcular a média de todo o conjunto de dados, mas sim coletar amostras do conjunto de dados e usar a média da amostra para estimar a média de todo o conjunto de dados / banco de dados. Você poderia dar um passo adiante se desejar e simular um conjunto de dados que tenha valores drasticamente diferentes para diferentes subgrupos. Você pode pedir aos alunos que explorem a amostragem estratificada para obter estimativas mais precisas.
Novamente, como existem estudantes de CS, convém executar algumas instruções para obter intervalos de confiança também ou para estimar as variações de estatísticas mais complexas. Esta é uma boa interseção entre estatística e computador, pois, na minha opinião, pode levar a um maior interesse no assunto.
fonte
Comecei digitando um comentário, mas ficou muito longo ...
Então, na minha opinião, eles vão gostar se você apresentar inferência do ponto de vista do "aprendizado" e se você apresentar testes do ponto de vista da "teoria da decisão" ou da "classificação" - em suma, eles devem gostar de algoritmos. Grok algoritmos!
Além disso, tente encontrar conjuntos de dados relacionados ao CS; por exemplo, a duração das conexões e o número de solicitações por unidade de tempo para um servidor html podem ajudar a ilustrar muitos conceitos.
Eles vão adorar aprender técnicas de simulação. Os geradores Lehmer são fáceis de implementar. Mostre a eles como simular outras distribuições invertendo o cdf. Se você gosta disso, mostre a eles o algoritmo Ziggurat de Marsaglia. Ah, e o gerador MWC256 da Marsaglia é uma pequena jóia. Os testes de Diehard por Marsaglia (testes de imparcialidade de geradores uniformes) podem ajudar a ilustrar muitos conceitos de probabilidade e estatística. Você pode até optar por apresentar a teoria da probabilidade com base em "fluxos (independentes) de duplos aleatórios, oups, quero dizer reais" - isso é um pouco atrevido, mas pode ser grandioso.
Se você dominar o assunto o suficiente, não hesite em ser original. As aulas "clássicas" são válidas quando você ensina algo com o qual não está totalmente familiarizado. Boa sorte e, se você divulgar algumas notas de aula, entre em contato!
fonte
Você diz que isso é estudantes de ciência da computação. Quais são os seus interesses, isso é principalmente ciência da computação teórica, ou estudantes são motivados principalmente pela preparação para empregos? Você também pode nos dizer qual é a descrição do curso!
Mas, qualquer que seja a sua resposta a essas perguntas, você pode começar com algumas estatísticas práticas que ocorrem em contextos de informática, como (por exemplo) web design. Ocasionalmente, este site tem perguntas sobre isso, como taxas de conversão ao longo do tempo ou /stats/96853/comparing-sales-person-conversion-rates ou AB Testing outros fatores além da taxa de conversão .
Existem muitas perguntas aqui como essas, aparentemente de pessoas envolvidas em web design. A situação é que você tem alguma página da web (por exemplo, você vende alguma coisa). A "taxa de conversão", pelo que entendi, é a porcentagem de visitantes que realizam alguma tarefa preferida (como compra ou outra meta que você tem para seus visitantes). Então, como web designer, pergunte se o layout da página influencia esse comportamento. Assim, você programa duas (ou mais) versões da página da web, escolhe aleatoriamente qual versão apresentar a algum novo cliente e pode comparar as taxas de conversão e, finalmente, optar por implementar a versão com a maior taxa de conversão.
Esse é um problema de design de um experimento de comparação e você precisa de métodos estatísticos para comparar porcentagens, ou talvez diretamente da tabela de contingência de designs versus converter / não converter. Esse exemplo pode mostrar a eles que as estatísticas podem realmente ser úteis para eles em algum trabalho de desenvolvimento da web! E, do lado estatístico, abre muitas perguntas interessantes sobre a validade das suposições ...
Para se conectar ao que você diz sobre o teorema do limite central, você pode perguntar quantas observações são necessárias antes de poder tratar as porcentagens como normalmente distribuídas e pedir que estudem isso usando simulação ...
Você pode pesquisar neste site outras questões estatísticas colocadas por tipos de programadores ...
fonte
Sugiro que, antes de qualquer bom exemplo, é melhor focar em definições claras. Na minha experiência, probabilidade e estatística de graduação é um curso repleto de palavras que nenhum dos alunos entende. Como um experimento, pergunte aos alunos que acabaram de terminar um curso de probabilidade o que é uma "variável aleatória". Eles podem dar exemplos, mas duvido que a maioria dê uma definição clara disso. O que exatamente é "probabilidade"? O que é uma "distribuição"? A terminologia nas estatísticas é ainda mais confusa. A maioria dos livros de graduação que eu vi faz um trabalho muito ruim ao explicar isso. Exemplos e cálculos são bons, mas sem definições claras, não é tão útil quanto se poderia pensar. Falando da minha experiência, era exatamente por isso que eu odiava a teoria da probabilidade na graduação. Embora meus interesses estejam tão distantes da probabilidade quanto possível, agora aprecio o assunto, porque acabei aprendendo a mim mesmo o que realmente significa toda a terminologia. Peço desculpas por não ter sido exatamente o que você pediu, mas, como você está dando uma aula dessas, achei que esse seria um conselho útil.
fonte