Como você transmite a beleza do Teorema do Limite Central a um não estatístico?

33

Meu pai é um entusiasta da matemática, mas não está muito interessado em estatística. Seria interessante tentar ilustrar alguns dos maravilhosos bits de estatística, e o CLT é um candidato principal. Como você transmitiria a beleza matemática e o impacto do teorema do limite central a um não estatístico?

Vince
fonte
Um pensamento rápido é trazer a regra 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ) para a discussão de alguma forma.
raegtin

Respostas:

16

O que eu mais amei com o CLT são os casos em que não é aplicável - isso me dá uma esperança de que a vida seja um pouco mais interessante que a curva de Gauss sugere. Então, mostre a ele a distribuição Cauchy.

user88
fonte
qual é a relação entre a distribuição de Cauchy e o CLT ou a falha do CLT?
26610 robin girard
O CLT exige que os MGF existam em um bairro de 0. A distribuição Cauchy não possui essa propriedade. Vitória do CLT. Cauchy nem sequer satisfaz os requisitos mais fracos de uma versão mais forte do CLT, onde tudo o que é necessário é que a média e a variação existam. A distribuição de Cauchy mostra que a média é necessária para que o CLT seja mantido. Não faz com que o CLT falhe.
Baltimark
@Baltimark Você entendeu errado meu post - é óbvio que o Cachy não é coberto pelo CLT por causa das suposições do CLT, caso contrário, seria impossível provar o CLT. Eu dei esse exemplo porque as pessoas acreditam que o CLT funciona para todas as distribuições; provavelmente "falhar" não é uma palavra perfeita, mas ainda não acho que seja uma razão para o voto negativo. Ok, eu até mudei para não aplicável.
Eu prefiro sua edição. A distribuição Cauchy é definitivamente muito legal.
Baltimark 27/07/10
14

Para apreciar plenamente o CLT, ele deve ser visto.

Daí a noção da máquina de feijão e muitos vídeos do youtube para ilustração.

Ami
fonte
Eu pensei que mostra a distribuição binomial; Não acho que seus assintóticos tenham uma ligação direta com o CLT.
2
máquina de bean pelo autor da animação do pacote ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard
1
@mbq dê uma olhada em en.wikipedia.org/wiki/…
robin girard
@robin eu escrevi sobre isso, qual é o problema?
1
@ShreevatsaR O ponto é que uma boa ilustração deve mostrar o "núcleo" de alguma coisa, e (pelo menos na IMO) o "núcleo" do CLT reside no fato de mesclar muitas variáveis ​​de diferentes distribuições estranhas em um gaussiano, não que seja apenas um limite de uma distribuição binomial.
7

Frequentemente, quando os matemáticos falam sobre probabilidade, começam com uma distribuição de probabilidade conhecida e depois falam sobre a probabilidade de eventos. O verdadeiro valor do teorema do limite central é que ele nos permite usar a distribuição normal como uma aproximação nos casos em que não sabemos a verdadeira distribuição. Você poderia fazer ao seu pai uma pergunta estatística padrão (mas formulada como matemática) sobre qual é a probabilidade de que a média de uma amostra seja maior que um determinado valor se os dados vierem de uma distribuição com mu e sd médios sigma, e então ver se ele assume uma distribuição (que você diz que não sabemos) ou diz que ele precisa conhecer a distribuição. Em seguida, você pode mostrar que podemos aproximar a resposta usando o CLT em muitos casos.

Para comparar matemática com estatísticas, eu gosto de usar o teorema do valor médio da integração (que diz que para uma integral de a a b existe um retângulo de a a b com a mesma área e a altura do retângulo é a média da curva). O matemático analisa esse teorema e diz "legal, posso usar uma integração para calcular uma média", enquanto o estatístico olha para o mesmo teorema e diz "legal, posso usar uma média para calcular uma integral".

Na verdade, tenho tapeçarias com pontos cruzados em meu escritório do teorema do valor médio e do CLT (junto com o teorema de Bayes).

Greg Snow
fonte
Hummm. Eu acho que a maioria dos matemáticos usa o MVT para aproximar uma integral como um retângulo.
cardeal
5

Gosto de demonstrar variação amostral e essencialmente o Teorema do Limite Central através de um exercício "em sala de aula". Todo mundo na classe dos digamos 100 alunos escreve sua idade em um pedaço de papel. Todos os pedaços de papel têm o mesmo tamanho e são dobrados da mesma maneira depois de calcular a média. Esta é a população e eu calculo a idade média. Em seguida, cada aluno seleciona aleatoriamente 10 pedaços de papel, escreve as idades e as devolve à bolsa. (S) ele calcula a média e passa a bolsa para o próximo aluno. Eventualmente, temos 100 amostras de 10 alunos, cada uma estimando a média da população que podemos descrever através de um histograma e algumas estatísticas descritivas.

Em seguida, repetimos a demonstração desta vez usando um conjunto de 100 "opiniões" que replicam algumas perguntas Sim / Não de pesquisas recentes. Por exemplo, se a eleição (geral britânica) fosse convocada amanhã, você consideraria votar no Partido Nacional Britânico. Os alunos experimentam 10 dessas opiniões.

No final, demonstramos variação de amostragem, o Teorema do Limite Central, etc. com dados contínuos e binários.

Graham Cookson
fonte
4

Brincar com o código a seguir, variar o valor Me escolher distribuições diferentes do uniforme pode ser uma ilustração divertida.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 
The Eremite
fonte
2

Se você usa Stata, pode usar o comando -clt- que cria gráficos de distribuições de amostragem, consulte

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm

Michael Mitchell
fonte
Parece que poderia ser muito bom, mas tentei instalá-lo e executá-lo no Stata 11.1 (ou seja, a versão mais recente) e ele continua me dando um erro de r (3000) ao clicar em "Concluído" na caixa de diálogo, mesmo se eu digitar - versão 6: clt-.
onestop 19/10/10
2

Na minha experiência, o CLT é menos útil do que parece. Nunca se sabe no meio de um projeto se n é grande o suficiente para que a aproximação seja adequada à tarefa. E para testes estatísticos, o CLT ajuda a proteger o erro do tipo I, mas faz pouco para manter o erro do tipo II distante. Por exemplo, o teste t pode ter uma potência arbitrariamente baixa para grandes n quando a distribuição de dados é extremamente distorcida.

Frank Harrell
fonte