Por um lado, tenho a regressão à média e, por outro, tenho a falácia do jogador .
A falácia de Gambler é definida por Miller e Sanjurjo (2019) como “a crença equivocada de que sequências aleatórias têm uma tendência sistemática à reversão, ou seja, que faixas de resultados semelhantes têm mais probabilidade de terminar do que continuar”. Por exemplo, uma moeda que caiu caiu várias Pensa-se que as vezes seguidas sejam desproporcionalmente propensas a cair no rabo no próximo julgamento.
Tive um bom desempenho no último jogo e, de acordo com a regressão à média, provavelmente terei um desempenho pior no próximo jogo.
Mas de acordo com a falácia do jogador: considere as duas probabilidades a seguir, assumindo uma moeda justa
- probabilidade de 20 cabeças, então 1 cauda =
- probabilidade de 20 cabeças, então 1 cabeça =
Então...
Considere um exemplo simples: uma turma de alunos faz um teste de verdadeiro / falso de 100 itens sobre um assunto. Suponha que todos os alunos escolham aleatoriamente todas as perguntas. Então, a pontuação de cada aluno seria a realização de um de um conjunto de variáveis aleatórias independentes e identicamente distribuídas, com uma média esperada de 50.
Naturalmente, alguns alunos pontuam substancialmente acima de 50 e alguns substancialmente abaixo de 50 apenas por acaso. Se alguém pegar apenas os 10% com melhor pontuação e fazer um segundo teste no qual eles escolhem aleatoriamente todos os itens, espera-se que a pontuação média seja próxima de 50.
Assim, a média desses estudantes "regrediria" até a média de todos os alunos que fizeram o teste original. Independentemente da pontuação do aluno no teste original, a melhor previsão de pontuação no segundo teste é 50.
Em especial Se alguém pegar apenas os 10% com melhor pontuação e fazer um segundo teste no qual eles escolhem aleatoriamente todos os itens, espera-se que a pontuação média seja próxima de 50.
De acordo com a falácia do jogador, não seria de esperar a mesma probabilidade para a pontuação e não necessariamente mais provável perto de 50?
Miller, JB, & Sanjurjo, A. (2019). Como a experiência confirma a falácia do jogador quando o tamanho da amostra é negligenciado.
fonte
Respostas:
Penso que a confusão pode ser resolvida considerando que o conceito de "regressão à média" realmente não tem nada a ver com o passado. É apenas a observação tautológica de que, a cada iteração de um experimento, esperamos o resultado médio. Portanto, se já tivemos um resultado acima da média, esperamos um resultado pior ou, se tivemos um resultado abaixo da média, esperamos um melhor. O ponto principal é que a expectativa em si não depende de nenhuma história anterior, como na falácia do jogador.
fonte
the expectation itself does not depend on any previous history
eif we previously had an above average outcome then we expect a worse result
. Você usa a palavra expectativa nos dois lugares e fala sobre a história passada / anterior nos dois lugares.Se você se encontrasse nessa posição, como uma pessoa racional (e assumindo uma moeda justa), sua melhor aposta seria apenas adivinhar. Se você se encontrasse em uma posição de jogador supersticioso, sua melhor aposta seria olhar para os eventos anteriores e tentar justificar seu raciocínio sobre o passado - por exemplo: "Uau, a cabeça está quente , é hora de apostar!" ou "Não há como ver outras cabeças - a probabilidade desse tipo de raia é incrivelmente baixa!".
A falácia do jogador não está percebendo que cada sequência de 20 moedas nos lança de maneira incrivelmente improvável - por exemplo, é muito improvável que você jogue 10 caras e depois 10 caudas, muito improvável que jogue caras e caudas alternadas, muito improvável que se divida em 4's, etc. É muito improvável que você jogue HHTHHTTTHT .. porque, para qualquer string, existe apenas uma maneira de isso acontecer com muitos resultados diferentes . Assim, confundir qualquer um deles como "provável" ou "improvável" é uma falácia, pois todos são equiprobáveis.
Regressão à média é a crença correta de que, a longo prazo, suas observações deverão convergir para um valor finito esperado. Por exemplo - minha aposta de que 10 de 20 lançamentos de moedas é boa, porque há muitas maneiras de alcançá-lo. Uma aposta em 15 de 20 é substancialmente menos provável, pois há muito menos sequências de caracteres que atingem essa contagem final. Vale a pena notar que, se você ficar sentado e jogar moedas (justas) por tempo suficiente, você acabará com algo que é aproximadamente 50/50 - mas você não acabará com algo que não tem "riscos" ou outras coisas improváveis eventos nele. Esse é o núcleo da diferença entre esses dois conceitos.
TL; DR : a regressão à média diz que, com o tempo, você terminará com uma distribuição que espelha o esperado em qualquer experimento. A falácia de jogador (erroneamente) diz que cada lançamento individual de uma moeda tem memória quanto aos resultados anteriores, o que deve impactar o próximo resultado independente.
fonte
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value
- Isso é a "falácia do apostador" - que depois de uma série de cabeças, caudas é agora mais provável, porque com uma moeda honesta seria convergem ...Eu sempre tento lembrar que a regressão em relação à média não é um mecanismo compensatório para observar valores extremos.
Não há relação de causa e efeito entre ter uma excelente corrida de jogo e depois 50-50 depois disso. É apenas uma maneira útil de lembrar que, quando você faz amostragens de uma distribuição, é mais provável que você veja valores próximos da média (pense no que a desigualdade de Chebyshev tem a dizer aqui).
fonte
Aqui está um exemplo simples: você decidiu jogar um total de 200 moedas. Até agora, você jogou 100 deles e teve muita sorte: 100% vieram à tona (incrível, eu sei, mas vamos manter as coisas simples).
Dependendo de 100 cabeças nos 100 primeiros lançamentos, você espera ter 150 cabeças no final do jogo. Um exemplo extremo da falácia do jogador seria pensar que você ainda espera apenas 100 cabeças no total (ou seja, o valor esperado antes de iniciar o jogo), mesmo depois de receber 100 nas primeiras 100 jogadas. O jogador acha que os próximos 100 lançamentos devem ser caudas. Um exemplo de regressão à média (nesse contexto) é que seu índice de cabeça de 100% deverá cair para 150/200 = 75% (ou seja, na média de 50%) ao terminar o jogo.
fonte
Eu poderia estar errado, mas sempre pensei que a diferença estivesse na suposição de independência.
Na falácia do jogador, a questão é o mal-entendido da independência. Certamente, ao longo de um grande número N de lançamentos de moedas, você estará em uma divisão de 50 a 50, mas se por acaso você não estiver, o pensamento de que seu próximo lançamento de T ajudará a equilibrar as chances está errado, porque cada lançamento de moeda é independente de o anterior.
A regressão para a média é, onde eu a vejo usada, alguma idéia de que os sorteios dependem de sorteios anteriores ou de uma média / valores calculados anteriores. Por exemplo, vamos usar a porcentagem de arremessos da NBA. Se o jogador A fez, em média, 40% de seus chutes durante sua carreira e começa um novo ano disparando 70% em seus primeiros 5 jogos, é razoável pensar que ele voltará à média de sua carreira. Existem fatores dependentes que podem e influenciarão sua jogada: estrias quentes / frias, jogo de companheiros de equipe, confiança e o simples fato de que se ele mantivesse 70% de arremessos durante o ano, ele aniquilaria absolutamente vários registros que são simplesmente feitos físicos impossíveis. (sob as habilidades atuais de desempenho dos jogadores profissionais de basquete). À medida que você joga mais jogos, sua porcentagem de tiro provavelmente cairá mais perto da sua média de carreira.
fonte
A chave é que não temos nenhuma informação que nos ajude no próximo evento (falácia do jogador), porque o próximo evento não depende do evento anterior. Podemos adivinhar razoavelmente como será uma série de ensaios. Essa estimativa razoável é a média conhecida como resultado médio esperado. Portanto, quando observamos um desvio na tendência média de volta à média, ao longo do tempo / tentativas, testemunhamos uma regressão à média.
Como você pode ver, a regressão à média é uma série de ações observadas , não é um preditor. À medida que mais ensaios são realizados, as coisas se aproximam mais de uma distribuição normal / gaussiana. Isso significa que não estou fazendo suposições ou adivinhando qual será o próximo resultado. Usando a lei dos grandes números , posso teorizar que, embora as coisas possam estar tendendo a uma maneira atualmente, com o tempo as coisas se equilibrarão. Quando eles se equilibram, o conjunto de resultados regrediu para a média. É importante observar aqui que não estamos dizendo que ensaios futuros dependem de resultados anteriores. Estou apenas observando uma mudança no balanço dos dados.
A falácia do jogador, como eu a entendo, é mais imediata em seus objetivos e se concentra na previsão de eventos futuros. Isso acompanha o que um jogador deseja. Normalmente, os jogos de azar são inclinados contra o jogador a longo prazo; portanto, um jogador quer saber qual será o próximo teste, porque deseja aproveitar esse conhecimento. Isso leva o jogador a assumir falsamente que o próximo teste depende do teste anterior. Isso pode levar a escolhas neutras como:
Ou a escolha pode ser útil:
Então, como você pode ver, existem algumas diferenças principais:
A regressão à média não pressupõe que testes independentes sejam dependentes como a falácia do jogador.
A regressão à média é aplicada sobre uma grande quantidade de dados / tentativas, onde a falácia do jogador está relacionada à próxima tentativa.
A regressão à média descreve o que já ocorreu. A falácia do jogador tenta prever o futuro com base na média esperada e nos resultados passados.
fonte
Os alunos com notas mais altas que obtiveram pior pontuação nos trapaceiros de reteste?
A pergunta recebeu uma edição substancial desde a última das seis respostas.
A pergunta editada contém um exemplo de regressão à média no contexto das pontuações dos alunos em um teste verdadeiro-falso de perguntas e um reteste para os melhores desempenhos em um teste equivalente. O reteste mostra pontuações significativamente mais médias para o grupo de melhores desempenhos no primeiro teste. O que está acontecendo? Os alunos trapacearam pela primeira vez? Não, é importante controlar a regressão à média. O desempenho dos testes de múltipla escolha é uma combinação de sorte na adivinhação e habilidade / conhecimento. Uma parte das pontuações dos melhores desempenhos foi devido à boa sorte, que não foi necessariamente repetível na segunda vez.100
Ou eles deveriam simplesmente ficar longe da roleta?
Vamos primeiro supor que nenhuma habilidade esteja envolvida, que as do aluno estavam apenas lançando moedas (justas) para determinar suas respostas. Qual é a pontuação esperada? Bem, cada resposta tem independentemente chance de ser a correta, portanto, esperamos de ou uma pontuação de .50 % 100 5050% 50% 100 50
2,8 % 300060% 2.8% 3000 60 85
Moedas da sorte e sorte flips
Portanto, mesmo quando algumas moedas são melhores do que outras, a aleatoriedade nas moedas vira um meio que selecionar os melhores desempenhos em um teste ainda exibirá alguma regressão à média em um novo teste. Nesse modelo modificado, a mão quente não é mais uma falácia absoluta - marcar melhor no primeiro turno significa uma maior probabilidade de ter uma boa moeda! No entanto, a falácia do jogador ainda é uma falácia - não se pode esperar que aqueles que experimentaram boa sorte sejam compensados com má sorte no reteste.
fonte
Eles estão dizendo a mesma coisa. Você ficou bastante confuso porque nenhum experimento isolado no exemplo de troca de moedas tem resultado extremo (H / T 50/50). Altere para "lançando dez moedas justas ao mesmo tempo em todas as experiências", e os jogadores querem acertar todas elas. Então, uma medida extrema seria a de ver todas elas como cabeças.
Falácia do jogador: trate cada resultado da aposta (resultado da troca de moedas) como IID . Se você já conhece a distribuição que esses compartilhamentos IID, a próxima previsão deve vir diretamente da distribuição conhecida e não tem nada a ver com resultados históricos (ou futuros) (também conhecido como outro IID).
Regressão à média: trate cada resultado do teste como DII (uma vez que se supõe que o aluno esteja adivinhando aleatoriamente e não tenha nenhuma habilidade real). Se você já conhece a distribuição que o IID compartilha, a próxima previsão vem diretamente da distribuição conhecida e não tem nada a ver com resultados históricos (ou futuros) (também conhecido como outro IID) ( exatamente como antes até aqui ). Mas, pelo CLT , se você observou valores extremos em uma medição (por exemplo, por acaso você estava apenas amostrando os 10% melhores alunos do primeiro teste), você deve saber que o resultado da sua próxima observação / medição ainda será gerado a partir do conhecimento conhecido. distribuição (e, portanto, é mais provável que esteja mais próximo da média do que permanecer no extremo).
Então, fundamentalmente, os dois dizem que a próxima medição virá da distribuição, e não dos resultados anteriores.
fonte
Sejam X e Y duas variáveis aleatórias uniformes em [0,1]. Suponha que os observemos um após o outro.
Falácia do jogador: P (Y | X)! = P (Y) Isso é, obviamente, um absurdo, porque X e Y são independentes.
Regressão para a média: P (Y <X | X = 1)! = P (Y <X) Isso é verdade: LHS é 1, LHS <1
fonte
Obrigado por suas respostas. Acho que entendi a diferença entre a regressão à média e a falácia de Gambler. Ainda mais, criei um banco de dados para me ajudar a ilustrar o caso "real".
Construí essa situação: coletei 1000 alunos e os coloquei para fazer um teste, respondendo aleatoriamente a perguntas.
A pontuação do teste varia de 01 a 05. Como respondem aleatoriamente às perguntas, cada pontuação tem 20% de chance de ser alcançada. Portanto, para o primeiro teste, o número de alunos com pontuação 05 deve ser algo próximo a 200
Eu tive 196 alunos com nota 05, o que é muito próximo dos 200 alunos esperados.
Então eu coloquei aqueles 196 alunos repetir o teste é esperado 39 alunos com pontuação 05.
Bem, de acordo com o resultado, consegui 42 alunos, o que está dentro do esperado.
Para aqueles que obtiveram pontuação 05, eu os coloco para repetir o teste e assim por diante ...
Portanto, os números esperados foram:
RETEST 03 esperado
(3.3) Resultados (8)
RETEST 04 esperado
(4.3) Resultados (2)
RETEST 05 esperado
(4.3) Resultados (0)
Portanto, a probabilidade de um aluno obter pontuação 05 em todos os 05 testes não tem nada a ver com sua última pontuação, quero dizer, não devo calcular a probabilidade de cada teste individualmente. Devo procurar esses 05 testes como um evento e calcular a probabilidade desse evento.
fonte