Qual é a explicação do seu leigo favorito para um conceito estatístico difícil?

36

Eu realmente gosto de ouvir explicações simples para problemas complexos. Qual é a sua analogia ou anedota favorita que explica um conceito estatístico difícil?

Meu favorito é a explicação de Murray sobre cointegração usando um bêbado e seu cachorro. Murray explica como dois processos aleatórios (um bêbado errante e seu cachorro, Oliver) podem ter raízes unitárias, mas ainda estar relacionados (cointegrados), pois suas primeiras diferenças conjuntas são estacionárias.

O bêbado sai do bar, prestes a vagar sem rumo, de maneira aleatória. Mas periodicamente ela entoa "Oliver, onde você está?", E Oliver interrompe seu vagar sem rumo para latir. Ele a ouve; ela o ouve. Ele pensa: "Oh, eu não posso deixá-la ir muito longe; ela vai me trancar." Ela pensa: "Oh, eu não posso deixá-lo ir muito longe; ele vai me acordar no meio da noite com seus latidos". Cada um avalia a que distância o outro está e se move para fechar parcialmente essa lacuna.

brotchie
fonte

Respostas:

18

Um valor p é uma medida de quão embaraçoso os dados são para a hipótese nula

Nicholas Maxwell, Data Matters: Estatísticas Conceituais para um Mundo Aleatório Emeryville CA: Key College Publishing, 2004.

Frank Harrell
fonte
15
  1. Se você esculpiu sua distribuição (histograma) em madeira e tentou equilibrá-la em seu dedo, o ponto de equilíbrio seria a média, independentemente da forma da distribuição.

  2. Se você colocar um graveto no meio do gráfico de dispersão e anexar o gravador a cada ponto de dados com uma mola, o ponto de repouso do gravador será sua linha de regressão. [1]

[1] isso seria tecnicamente a regressão de componentes principais. você teria que forçar as molas a moverem-se apenas "verticalmente" para ter menos quadrados, mas o exemplo é ilustrativo de qualquer maneira.

Neil McGuigan
fonte
2
A força da mola é proporcional à deformação, portanto, essa não é uma regressão de mínimos quadrados!
precisa saber é o seguinte
1
Boa tentativa! Depende da primavera. Por exemplo, se a constante da mola é de 1 / sigma, funciona muito bem;)
Neil McGuigan
2
não, não, o ponto é que, no equilíbrio estático, a soma das forças seria zero; assumindo constantes de mola iguais, você minimizaria a soma dos desvios absolutos, ou seja , regressão , pelo menos quadrados. Isso ignora o fato de que as molas teriam que flutuar livremente no bastão, para que mudassem para que a deformação não estivesse inteiramente na direção , resultando em algo como um encaixe dos Componentes Principais, mas com erros absolutos. anoeu1y
shabbychef
@shabbychef: força da mola proporcional à deformação significa que a energia da mola é proporcional à deformação ao quadrado. A energia da primavera é realmente o que é minimizado em equilíbrio. A soma de forças sendo zero não é força ou está sendo minimizado. minimiza a soma dos valores absolutos. L 1eu1eu1
wnoise
12

Eu usei o passeio do bêbado antes para passeio aleatório, e o bêbado e seu cachorro para cointegração; eles são muito úteis (parcialmente porque são divertidos).

Um dos meus exemplos comuns favoritos é o Paradoxo de Aniversário ( entrada da Wikipedia ), que ilustra alguns conceitos importantes de probabilidade. Você pode simular isso com uma sala cheia de pessoas.

Aliás, recomendo vivamente "Ensinar estatística: um manto de truques", de Andrew Gelman, para alguns exemplos de maneiras criativas de ensinar conceitos estatísticos (consulte o índice ). Veja também seu artigo sobre o curso que ele ensina sobre ensino de estatística: "Um curso de ensino de estatística no nível universitário" . E em "Ensinar Bayes a estudantes de pós-graduação em ciência política, sociologia, saúde pública, educação, economia, ..." .

Para descrever métodos bayesianos, usar uma moeda injusta e lançá-la várias vezes é uma abordagem bastante comum / eficaz.

Shane
fonte
11

Gosto de demonstrar variação amostral e essencialmente o Teorema do Limite Central através de um exercício "em sala de aula". Todo mundo na classe dos digamos 100 alunos escreve sua idade em um pedaço de papel. Todos os pedaços de papel têm o mesmo tamanho e são dobrados da mesma maneira depois de calcular a média. Esta é a população e eu calculo a idade média. Em seguida, cada aluno seleciona aleatoriamente 10 pedaços de papel, escreve as idades e as devolve à bolsa. (S) ele calcula a média e passa a bolsa para o próximo aluno. Eventualmente, temos 100 amostras de 10 alunos, cada uma estimando a média da população que podemos descrever através de um histograma e algumas estatísticas descritivas.

Em seguida, repetimos a demonstração desta vez usando um conjunto de 100 "opiniões" que replicam algumas perguntas Sim / Não de pesquisas recentes. Por exemplo, se a eleição (geral britânica) fosse convocada amanhã, você consideraria votar no Partido Nacional Britânico. Os alunos experimentam 10 dessas opiniões.

No final, demonstramos variação de amostragem, o Teorema do Limite Central, etc. com dados contínuos e binários.

Graham Cookson
fonte
10

Definitivamente o problema de Monty Hall. http://en.wikipedia.org/wiki/Monty_Hall_problem

Stephen Turner
fonte
1
Marcou com +1 esse problema quando eu li e pensei sobre ele - e a solução é bastante simples, mas ensina muito sobre probabilidade.
Sharpie
1
Acho que o problema de Monty Hall não passa de uma simples explicação de probabilidade para um leigo. Eu entendo, mas ainda tenho dificuldade em entender, e muito menos entendê-lo o suficiente para explicar a uma pessoa que não é de estatística e fazer com que ela aprenda algo com isso ... Enfim, você não especifica se o problema é o seu conceito difícil ou a explicação do seu leigo . -1 até que você faça.
naught101
2
A maneira mais fácil de explicar o problema de Monty Hall é imaginar o mesmo problema, mas com 1000 portas - 999 delas têm uma cabra atrás delas e apenas 1 delas tem um carro atrás dela. Digamos que você escolha uma porta, e o apresentador do game abre 998 outras portas e pergunta se você deseja mudar sua decisão para a porta que ele não abriu. Sabendo que ele não poderia ter aberto a porta com o carro atrás dela, você teria que mudar para a outra porta (ou estar ridiculamente confiante de que estava certo em sua escolha inicial).
Berk U.
10

1) Uma boa demonstração de como "aleatório" precisa ser definido para determinar a probabilidade de certos eventos:

Qual é a chance de uma linha aleatória traçada em um círculo ser maior que o raio?

A questão depende totalmente de como você desenha sua linha. As possibilidades que você pode descrever de maneira real para um círculo desenhado no chão podem incluir:

Desenhe dois pontos aleatórios dentro do círculo e faça uma linha através deles. (Veja onde duas moscas / pedras caem ...)

Escolha um ponto fixo na circunferência, depois um aleatório em outro lugar do círculo e junte-se a eles. (De fato, isso é colocar um graveto no círculo em um ângulo variável através de um determinado ponto e aleatório, por exemplo, onde uma pedra cai.)

Desenhe um diâmetro. Escolha aleatoriamente um ponto ao longo dele e desenhe uma perpendicular a ele. (Role um pedaço de pau em uma linha reta para que fique ao redor do círculo.)

É relativamente fácil mostrar a alguém que pode fazer alguma geometria (mas não necessariamente estatísticas) a resposta à pergunta pode variar bastante (de cerca de 2/3 a cerca de 0,866).

(1210)

3) Explicar por que o diagnóstico médico pode parecer realmente defeituoso. Um teste para a doença foo com 99,9% de precisão na identificação daqueles que a possuem, mas. 1% diagnostica falso-positivamente aqueles que realmente não a possuem, pode parecer errado muitas vezes quando a prevalência da doença é realmente baixa ( 1 em 1000), mas muitos pacientes são testados.

Este é o que é melhor explicado com números reais - imagine 1 milhão de pessoas testadas, então 1000 têm a doença, 999 são identificadas corretamente, mas 0,1% de 999.000 são 999 que dizem que a têm, mas não a fazem. Portanto, metade dos que são informados de que possuem não tem, apesar do alto nível de precisão (99,9%) e baixo nível de falsos positivos (0,1%). Um segundo teste (idealmente diferente) separará esses grupos.

[Aliás, escolhi os números porque são fáceis de trabalhar, é claro que não precisam somar 100%, pois as taxas de precisão / falso positivo são fatores independentes no teste.]

AdamV
fonte
2
Acho que seu primeiro exemplo se refere ao paradoxo de Bertrand. Muito boa ilustração das diferentes maneiras de definir um espaço probabilístico!
chl
9

O livro de Sam Savage, Flaw of Averages, é repleto de boas explicações leigas de conceitos estatísticos. Em particular, ele tem uma boa explicação da desigualdade de Jensen. Se o gráfico do seu retorno de um investimento é convexo, ou seja, "sorri para você", a aleatoriedade é a seu favor: seu retorno médio é maior que o retorno médio.

John D. Cook
fonte
6

Behar e cols. Têm uma coleção de 25 analogias para o ensino de estatística. Aqui estão dois exemplos:

2.9 Todos os modelos são teóricos: Não existem esferas perfeitas no universo Parece que a forma geométrica mais comum no universo é a esfera. Mas quantas esferas matematicamente perfeitas existem no universo? A resposta é nenhuma. Nem a Terra, nem o Sol, nem uma bola de bilhar são uma esfera perfeita. Portanto, se não existem esferas verdadeiras, de que servem as fórmulas para determinar a área ou o volume de uma esfera? O mesmo ocorre com os modelos estatísticos em geral e, em particular, com uma distribuição normal. Embora um dos exemplos mais comuns seja a distribuição da altura, se tivéssemos à disposição a altura de todos os adultos do planeta, o perfil do histograma não corresponderia a uma curva de sino gaussiana, nem mesmo se os dados fossem estratificados por sexo, raça ou qualquer outra característica.

2.25 Os resíduos não devem conter informações: Um saco de lixo é o que resta depois de remover todas as informações dos dados. Como eles não devem conter informações, nós os consideramos "lixo". É necessário garantir que não jogamos fora nenhum lixo que possua valor (informações) e que possa ser explorado para melhor explicar o comportamento da variável dependente.

Outros exemplos incluem

  • "Efeito do tamanho da amostra na comparação de tratamentos: ampliação de binóculos"
  • "O tamanho da amostra versus o tamanho da população: uma colher para provar a sopa"

Referências

  • Behar, R., Grima, P. e Marco-Almagro, L. (2012). Vinte e cinco analogias para explicar conceitos estatísticos. O estatístico americano (apenas aceito).
Jeromy Anglim
fonte
3

Pergunta divertida.

Alguém descobriu que eu trabalho em bioestatística e me perguntaram (basicamente) "As estatísticas não são apenas uma maneira de mentir?"

(O que traz de volta a citação de Mark Twain sobre Mentiras, Mentiras e Estatísticas).

Tentei explicar que a estatística nos permite dizer com 100% de precisão que, dadas suposições e dados, que a probabilidade de tal e tal era exatamente tal e tal.

Ela não ficou impressionada.

Mike Dunlavey
fonte
1
"Permite-nos dizer, com 100% de precisão, exatamente quão grande é a nossa falta de precisão"
naught101
Se não for uma refutação direta, a resposta de @ Jeromy sugere por que a noção de "100% de precisão" deve ser descartada.
Rolando2