Como explicar o teste de hipóteses para adolescentes em menos de 10 minutos?

18

Há mais de um ano, dou uma aula de uma hora "gosto pela estatística". Cada vez que recebo um grupo diferente de crianças, dou aulas para elas.

O tema da aula é que realizamos um experimento no qual 10 crianças (que gostam de beber coca-cola) recebem duas xícaras (não marcadas), uma com coca-cola e outra com pepsi. Pede-se às crianças que detectem, com base no paladar e no cheiro, qual copo contém a bebida coca-cola.

Preciso então explicar a eles como decidir se as crianças estão adivinhando ou se elas (ou pelo menos, número suficiente delas) realmente têm a capacidade de provar a diferença. 10 em cada 10 sucessos são bons o suficiente? que tal 7 em 10?

Mesmo depois de dar a essa aula dezenas de vezes (em diferentes variações), ainda não acho que sei como transmitir o conceito de uma maneira que a maioria da classe o entenderá.

Se você tem alguma idéia de como o conceito de teste de hipótese, hipótese nula, hipótese alternativa, regiões de rejeição etc. pode ser explicado de uma maneira simples (!) E intuitiva - eu adoraria saber como.

Tal Galili
fonte
1
Às vezes, pensar em "por que" ajuda a entender melhor o "como", para que você possa verificar stats.stackexchange.com/questions/6966/…
Tim
5
(+1) Acho que depende de qual é a sua definição de 10 minutos !
cardeal
1
Algumas semanas atrás, resolvi responder a essa pergunta - ou pelo menos uma notavelmente parecida - em stats.stackexchange.com/a/130772 . Esse segmento não é uma duplicata deste?
whuber
1
@ cardinal - quero dizer literalmente 10 minutos. Para esse tipo de tópico e para pessoas sem formação - isso é muito pouco tempo. --------------- Caro whuber - Adorei sua resposta, mas seria ótimo para os alunos saberem qual é a probabilidade e a relação entre densidade e área. Estes são conceitos ensinados aos alunos, mas não aos alunos do ensino médio. Não desejo que eles compreendam completamente o teste de hipóteses, mas mantenham o suficiente para que eles possam ter uma ideia do que é uma decisão sobre o significado de cada região de rejeição.
Tal Galili 15/02
4
Obrigado pelo esclarecimento, Tal. Você ainda parece indicar que outro segmento é uma duplicata da sua pergunta, mas que simplesmente não viu uma resposta adequada lá. Uma boa maneira de diferenciar sua pergunta daquela seria fornecer requisitos específicos sobre o nível da exposição e o que podemos assumir que o público sabe, da mesma maneira que você começou a fazer em seu comentário.
whuber

Respostas:

10

Eu acho que você deve começar perguntando o que eles acham que realmente significa dizer sobre uma pessoa que ela é capaz de dizer a diferença entre coca-cola e pepsi. O que uma pessoa pode fazer que outros não podem fazer?

A maioria deles não terá essa definição e não será capaz de produzir uma, se solicitado. No entanto, um significado dessa frase é o que a estatística nos fornece, e é isso que você pode trazer com a classe "gosto pela estatística".

Um dos pontos da estatística é dar uma resposta exata à pergunta: "o que significa dizer de alguém que ele é capaz de dizer a diferença entre coca-cola e pepsi"

A resposta é: ele ou ela é melhor do que uma máquina de adivinhação para classificar os copos em um teste às cegas. A máquina de adivinhação não pode dizer a diferença, ela simplesmente adivinha o tempo todo. A máquina de adivinhação é uma invenção útil para nós, porque sabemos que ela não tem capacidade. Os resultados da máquina de adivinhação são úteis porque mostram o que devemos esperar de alguém que não possui a capacidade que testamos.

Para testar se uma pessoa é capaz de dizer a diferença entre coca-cola e pepsi, é preciso comparar suas classificações de xícaras em um teste cego com a classificação que uma máquina de adivinhação faria. Somente se ele for melhor que a máquina de adivinhação, ele poderá dizer a diferença.

Como, então, você determina se um resultado é melhor que outro? E se forem quase iguais?

Se duas pessoas classificam um pequeno número de xícaras, não é realmente justo dizer que uma é melhor que a outra se os resultados forem quase os mesmos. Talvez o vencedor tenha tido sorte hoje e os resultados teriam sido revertidos se a competição fosse repetida amanhã?

Se queremos obter um resultado confiável, ele não pode ser baseado em um pequeno número de classificações, porque o acaso pode decidir o resultado. Lembre-se, você não precisa ser perfeito para ter a capacidade, apenas precisa ser melhor do que a máquina de adivinhar. De fato, se o número de classificações for muito pequeno, nem mesmo uma pessoa que sempre identifique a coca-cola corretamente será capaz de mostrar que é melhor que a máquina de adivinhação. Por exemplo, se houver apenas uma xícara para classificar, mesmo a máquina de adivinhação terá 50% de chance de classificar completamente correta. Isso não é bom, porque isso significa que em 50% dos testes, concluiríamos falsamente que um bom identificador de coca-cola não é melhor que a máquina de adivinhar. Muito injusto.

Quanto mais copos houver para classificar, mais oportunidades serão reveladas à incapacidade da máquina de adivinhar e mais oportunidades para o bom identificador de coca-cola aparecer.

10 xícaras pode ser um bom lugar para começar. Quantas respostas certas um ser humano precisa mostrar para mostrar que é melhor que a máquina?

Pergunte a eles o que eles adivinhariam.

Depois, deixe-os usar a máquina e descubra como ela é boa, ou seja, permita que todos os alunos gerem uma série de dez suposições, por exemplo. usando um dado ou um gerador aleatório no smartphone. Para ser pedagógico, você deve preparar uma série de dez respostas corretas, contra as quais as suposições devem ser avaliadas.

Registre todos os resultados no quadro. Imprima os resultados classificados no quadro. Explique que um ser humano teria que ser melhor que 95% desses resultados antes que um estatístico reconhecesse sua capacidade de diferenciar coca-cola e pepsi. Desenhe a linha que separa os 95% piores resultados dos 5% principais.

Depois, deixe alguns alunos tentarem classificar 10 xícaras. A essa altura, os alunos devem saber quantos direitos precisam ter para provar que sabem a diferença.

Tudo isso não é realmente factível em 10 minutos.

Hans Ekbrand
fonte
2
Obrigado Hans. Eu gosto da sua resposta por vários motivos. 1) Porque você traz uma nova idéia para a mesa "fazer as crianças competirem com uma máquina de adivinhação". Admito que o pensamento me passou pela cabeça, mas sua resposta reforça minha opinião de que isso pode funcionar melhor do que fazê-los competir com a distribuição teórica da hipótese nula p = 0,5. 2) Porque você entender que nem tudo o que propor foi factível em 10 minutos :)
Tal Galili
2
Obrigado Tal. a) Eu acho que a máquina de adivinhar é muito mais intuitiva do que a distribuição teórica. b) Espero que você possa poupar mais de 10 minutos para o teste de hipóteses.
Hans Ekbrand
Por que 95%, ha ha?
Mark L. Stone
2

Trabalhar com refrigerante parece divertido, e o teste para saber se os adolescentes realmente sabem a diferença entre os refrigerantes faz sentido quando você tiver um conhecimento razoável sobre o teste de hipóteses. O problema pode ser que esta pergunta: "você pode realmente dizer a diferença entre refrigerantes?" é complicado por muitas outras coisas na mente dos adolescentes, como "quem é bom e quem é ruim em testar refrigerantes?", "existe realmente alguma diferença entre os refrigerantes?"

Eu nunca ensinei estatísticas para adolescentes, mas sempre fantasiei em usar um dado carregado ou uma moeda tendenciosa. Morra mais interessante, mas estatisticamente mais desafiador. Com o exemplo da moeda, uma moeda é ou não é justa. Não há como ser bom em lançar moedas. Não há como decidir se é cara ou coroa.

Se jogarmos uma moeda para quem ganha US $ 100, e ela aparece cara (você ganha!), Posso dizer: "Ei. Como sei se essa moeda é justa? Aposto que você fraudou a competição!". Você diz "Ah, sim? Prove." A solução bastante óbvia é jogar a moeda várias vezes para ver se aparece mais cara do que coroa. Nós jogamos, e vem à tona. "Ahha! Eu digo. Veja! É tendenciosa em relação às cabeças!" E assim por diante.

Não existem boas moedas tendenciosas, mas existem - você pode comprar uma na Amazon. Você pode oferecer aos alunos um prêmio se eles puderem ganhar um número de jogadas. Mas você sabe que vai ganhar. Eles vão ficar com raiva. Você diz, OK, eu lhe darei o prêmio se você puder provar que esse dado é tendencioso, com, digamos, 95% de confiança.

Depois vá para o refrigerante. O prêmio pode até ser uma festa de refrigerante! "Ei, eu me pergunto se vocês podem dizer a diferença entre coca e pepsi ..."

tim.farkas
fonte
6
" Não há como ser bom em jogar moedas. " - vendo Persi Diaconis virar a cabeça à vontade, acho que pode haver.
Glen_b -Reinstala Monica
ha agora vou tentar ficar bom nisso!
tim.farkas
1
Diaconis é um estatístico e mágico. Existem vídeos dele demonstrando isso (sacudindo a cabeça quando ele quer) no youtube.
Glen_b -Reinstala Monica
Oi Tim. Você traz bons argumentos, mas eles não abordam minha pergunta diretamente. Dado que seus alunos fizeram x de 10 testes corretamente (um teste está escolhendo a marca certa, com base no gosto) - como você pode explicar por que decide que eles são bons / ruins ao tomar essa decisão?
Tal Galili
Mais uma vez, você pode usar o lançamento de moedas. Se eles derem um sabor único e acertarem, não é muito convincente, pois se você jogar uma moeda, ela deve estar "certa" 50% do tempo! se você acertar duas vezes, a probabilidade de conseguir isso por acaso é a mesma que virar duas cabeças = 0,5 * 0,5 = 0,25. 3 vezes seguidas é 0,125, 4 é 0,0625, 5 é 0,0313. Você tem que escolher o nível de confiança que deseja. 50% é suficiente? como cerca de 25%? R. Fisher diz que 95% de certeza é bom o suficiente, e é isso que muitos cientistas usam. Isso é tecnicamente chamado de teste de sinal. Ver abaixo.
tim.farkas
2

Considere alguém praticando tiro ao alvo com uma espingarda, que atira rajadas de balas na direção do cano.

Hipótese nula: Eu sou um bom atirador, e meu cano está perfeitamente no alvo. Não esquerda, não direita, mas direta. Meu erro é 0.

Hipótese alternativa: Eu sou um atirador ruim e meu cano está fora do alvo. Apenas à esquerda ou à direita do alvo. Meu erro é e> 0 ou e <0.

Como qualquer medida possui um certo erro médio (isto é, erro padrão), é possível uma medida que diz "fora do alvo", mesmo que eu esteja disparando em linha reta. Precisarei não "acertar" meu alvo (mesmo que cada tiro seja uma rajada / propagação) um certo número de vezes, antes que você possa me chamar de atirador ruim e escolher a hipótese alternativa.

Maurice
fonte
1
Bem-vindo ao CV. Você poderia relacionar suas explicações ao nulo e à alternativa? Talvez alguma discussão adicional possa ajudar a motivá-los. Também existem alguns valores nulos e alternativas para os quais essa explicação não seria adequada; talvez seja necessário mencionar para quais tipos de hipóteses essa seria uma explicação adequada (por exemplo, ponto nulo, bicaudal)
Glen_b -Reinstate Monica
1

Suponha que as crianças não percebam a diferença e decidam por acaso. Cada criança tem 50% de chance de acertar. Então você espera (valor esperado) que, neste caso, 5 crianças façam o que é certo e 5 crianças erram. É claro que, por acaso, também é possível que 6 crianças erram e 4 acertem, e assim por diante. No lado oposto, mesmo que as crianças percebam a diferença, é possível que, por acaso, uma delas erre.

Intuitivamente, é claro que, se as crianças adivinham por acaso, é bastante improvável que todas as crianças dêem a resposta correta. Nesse caso, seria preferível acreditar que as crianças pudessem provar a diferença entre as duas bebidas. Em outras palavras, não esperamos que eventos improváveis ​​sejam observados. Portanto, se observarmos um evento improvável no scanario 50-50, acreditamos que esse cenário é falso e as crianças podem distinguir entre Coca-Cola e Pepsi.

αα0,00098αα=0,05

P(todas as crianças acham certo)=0,00098P(apenas um garoto confunde Coca-Cola com Pepsi)=0,01074P(apenas dois filhos confundem)=0,05468

Este é o momento em que você conduz o experimento. Faça isso com todos os 10 alunos, mesmo que você tenha calculado que poderia parar após o segundo erro. Em seguida, registre os resultados e guarde-os. Você precisará dos resultados se desejar explicar as meta-análises para eles.

(A propósito, o exemplo histórico é sobre degustação, se o leite ou o chá foram despejados primeiro na xícara. A mulher que provou o chá.)

Horst Grünbusch
fonte
0

As crianças que experimentam coque são um bom exemplo para introduzir testes de hipóteses, como mostrou o equivalente ao experimento com chá para mulheres. No entanto, avaliar esses experimentos não é muito intuitivo, porque a hipótese nula envolve a distribuição binomial com p = 0,5, e não é direta.

Na minha introdução habitual ao teste de hipóteses, tento superar essa desvantagem usando apenas o caso de todos os sucessos na distribuição binomial, cuja probabilidade pode ser calculada como p ^ n mesmo por pessoas que não conhecem a probabilidade binomial.

No meu exemplo favorito, gosto de castanhas assadas e compro um punhado delas de um vendedor ambulante. Eu os recebo com um desconto porque eles vêm de uma sacola grande onde 10% das castanhas têm um buraco de minhoca - aqui tento deixar claro que a sacola foi bem misturada para que meu punhado de castanhas seja uma amostra aleatória das castanhas na sacola e na declaração do vendedor significa que toda castanha tem uma probabilidade independente de 10% de ter um buraco de minhoca.

Quando começo a apreciar minhas castanhas assadas, tomo-as ​​uma a uma e verifico-as quanto a buracos de minhoca antes de comê-las.

Quando verifico a primeira castanha, vejo um buraco de minhoca e me pergunto se o fornecedor mentiu para mim - explico aqui que me pergunto se isso está definindo minha hipótese nula p = 10% e minha hipótese alternativa p> 10%, e coloquei eles na lousa. Tenho motivos para duvidar que p = 10% quando recebi uma castanha ruim de uma? Bem, 10% das pessoas que realizam o mesmo experimento obteriam o mesmo resultado, então posso pensar que tive azar.

Depois, pego a segunda castanha e ela também tem um buraco de verme. Dois em cada dois têm uma probabilidade de apenas 1% se o fornecedor não mentiu para mim. Eu poderia ter tido muita má sorte, mas fico muito desconfiado com o fornecedor.

A terceira castanha também tem um buraco de minhoca. Obter as três castanhas com vermes em três não seria impossível, assumindo que o vendedor seja justo ep = 10%, mas seria muito improvável (probabilidade = 0,1%). Portanto, agora tenho um forte motivo para duvidar do trabalho do fornecedor e levanto uma reclamação e solicito o reembolso.

Obviamente, esse tipo de teste sucessivo tem alguns problemas teóricos, mas não importa muito mostrar a idéia de um teste de hipótese. De fato, a idéia mais importante que não é abordada nesse exemplo é que, nos testes de hipóteses, calculamos a probabilidade dos resultados obtidos ou algo pior - no meu exemplo, isso foi evitado apenas com o pior resultado possível.

Eu usei esse exemplo várias vezes com calouros da universidade - que ainda são tecnicamente adolescentes - mas acho que também poderia funcionar bem com os adolescentes mais jovens.

Pere
fonte