Regressão à falácia média versus jogador

29

Por um lado, tenho a regressão à média e, por outro, tenho a falácia do jogador .

A falácia de Gambler é definida por Miller e Sanjurjo (2019) como “a crença equivocada de que sequências aleatórias têm uma tendência sistemática à reversão, ou seja, que faixas de resultados semelhantes têm mais probabilidade de terminar do que continuar”. Por exemplo, uma moeda que caiu caiu várias Pensa-se que as vezes seguidas sejam desproporcionalmente propensas a cair no rabo no próximo julgamento.

Tive um bom desempenho no último jogo e, de acordo com a regressão à média, provavelmente terei um desempenho pior no próximo jogo.

Mas de acordo com a falácia do jogador: considere as duas probabilidades a seguir, assumindo uma moeda justa

  1. probabilidade de 20 cabeças, então 1 cauda =0.520×0.5=0.521
  2. probabilidade de 20 cabeças, então 1 cabeça =0.520×0.5=0.521

Então...

Considere um exemplo simples: uma turma de alunos faz um teste de verdadeiro / falso de 100 itens sobre um assunto. Suponha que todos os alunos escolham aleatoriamente todas as perguntas. Então, a pontuação de cada aluno seria a realização de um de um conjunto de variáveis ​​aleatórias independentes e identicamente distribuídas, com uma média esperada de 50.

Naturalmente, alguns alunos pontuam substancialmente acima de 50 e alguns substancialmente abaixo de 50 apenas por acaso. Se alguém pegar apenas os 10% com melhor pontuação e fazer um segundo teste no qual eles escolhem aleatoriamente todos os itens, espera-se que a pontuação média seja próxima de 50.

Assim, a média desses estudantes "regrediria" até a média de todos os alunos que fizeram o teste original. Independentemente da pontuação do aluno no teste original, a melhor previsão de pontuação no segundo teste é 50.

Em especial Se alguém pegar apenas os 10% com melhor pontuação e fazer um segundo teste no qual eles escolhem aleatoriamente todos os itens, espera-se que a pontuação média seja próxima de 50.

De acordo com a falácia do jogador, não seria de esperar a mesma probabilidade para a pontuação e não necessariamente mais provável perto de 50?

Miller, JB, & Sanjurjo, A. (2019). Como a experiência confirma a falácia do jogador quando o tamanho da amostra é negligenciado.

Luis P.
fonte
5
Não vejo como a Falácia do Jogador está conectada às duas probabilidades que você calcula. Você poderia explicar com mais precisão o que entende ser essa falácia?
whuber
Seu jogo tem a sequência de cabeças mais longa?
31416 AdamO
1
Eu realmente adoraria uma explicação para isso. As respostas até agora não parecem ter esclarecido para mim ainda. A regressão à média parece tornar os eventos independentes dependentes. Talvez a regressão à média nunca possa ser usada para apenas uma observação, apenas se aplica quando existe uma média.
icc97

Respostas:

28

Penso que a confusão pode ser resolvida considerando que o conceito de "regressão à média" realmente não tem nada a ver com o passado. É apenas a observação tautológica de que, a cada iteração de um experimento, esperamos o resultado médio. Portanto, se já tivemos um resultado acima da média, esperamos um resultado pior ou, se tivemos um resultado abaixo da média, esperamos um melhor. O ponto principal é que a expectativa em si não depende de nenhuma história anterior, como na falácia do jogador.

dsaxton
fonte
Exatamente. No contexto deste Q, se as cabeças puderem ser interpretadas como "bons resultados", nos exemplos do OP provavelmente haverá um resultado pior após uma série de bons resultados e um resultado melhor provavelmente após uma série de resultados ruins. .
Ameba diz Reinstate Monica
5
Parece que você está se contradizendo. Você afirma the expectation itself does not depend on any previous historye if we previously had an above average outcome then we expect a worse result. Você usa a palavra expectativa nos dois lugares e fala sobre a história passada / anterior nos dois lugares.
31516 Erik
6
Não há contradição. Não esperamos um resultado pior porque os resultados são de fato dependentes um do outro, esperamos um resultado pior porque vimos um que estava acima da nossa expectativa. A expectativa em si é constante e não muda como resultado do resultado anterior.
dsaxton
@Erik Talvez uma reformulação possa ajudar, mas o ponto a ser observado é como diferenciar os dois aspectos. Primeiro, esperamos um resultado médio, ou melhor, acreditamos que seja mais provável. Ao comparar com um resultado real, essa expectativa pode ser relativamente boa ou ruim, dependendo de quão bom ou ruim esse resultado foi em relação às nossas expectativas. Não obtemos informações sobre o futuro! Estamos apenas comparando nossos resultados reais com uma média. (Este comentário agora é redundante, mas eu estou deixando-o) #
wedstrom
9
Não voto a favor, porque sua resposta sofre com a ambiguidade que levou a pergunta em primeiro lugar. Ou seja, o que é um resultado "pior" após um resultado acima da média? O OP o interpreta como "pior que a média" (uma interpretação que parece intuitivamente correta por causa da falácia justa do mundo), enquanto a regressão à média significa que será "pior que a história". Sem esclarecer essa fonte de confusão, sua resposta (correta) só é compreensível para aqueles que já sabem a resposta certa. Se você editá-lo de alguma forma, receberá meu voto positivo.
rumtscho
17

Se você se encontrasse nessa posição, como uma pessoa racional (e assumindo uma moeda justa), sua melhor aposta seria apenas adivinhar. Se você se encontrasse em uma posição de jogador supersticioso, sua melhor aposta seria olhar para os eventos anteriores e tentar justificar seu raciocínio sobre o passado - por exemplo: "Uau, a cabeça está quente , é hora de apostar!" ou "Não há como ver outras cabeças - a probabilidade desse tipo de raia é incrivelmente baixa!".

A falácia do jogador não está percebendo que cada sequência de 20 moedas nos lança de maneira incrivelmente improvável - por exemplo, é muito improvável que você jogue 10 caras e depois 10 caudas, muito improvável que jogue caras e caudas alternadas, muito improvável que se divida em 4's, etc. É muito improvável que você jogue HHTHHTTTHT .. porque, para qualquer string, existe apenas uma maneira de isso acontecer com muitos resultados diferentes . Assim, confundir qualquer um deles como "provável" ou "improvável" é uma falácia, pois todos são equiprobáveis.

Regressão à média é a crença correta de que, a longo prazo, suas observações deverão convergir para um valor finito esperado. Por exemplo - minha aposta de que 10 de 20 lançamentos de moedas é boa, porque há muitas maneiras de alcançá-lo. Uma aposta em 15 de 20 é substancialmente menos provável, pois há muito menos sequências de caracteres que atingem essa contagem final. Vale a pena notar que, se você ficar sentado e jogar moedas (justas) por tempo suficiente, você acabará com algo que é aproximadamente 50/50 - mas você não acabará com algo que não tem "riscos" ou outras coisas improváveis eventos nele. Esse é o núcleo da diferença entre esses dois conceitos.

TL; DR : a regressão à média diz que, com o tempo, você terminará com uma distribuição que espelha o esperado em qualquer experimento. A falácia de jogador (erroneamente) diz que cada lançamento individual de uma moeda tem memória quanto aos resultados anteriores, o que deve impactar o próximo resultado independente.

Derek Janni
fonte
1
Então, a falácia do jogador é um conceito errado? Eu não conseguia entender o essencial disso. Desculpe
Luis P.
6
A falácia do jogador é ... bem ... uma falácia. Está errado, é um mau raciocínio. Regressão à média é estatísticas puras, embora :)
Derek Janni
1
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value- Isso é a "falácia do apostador" - que depois de uma série de cabeças, caudas é agora mais provável, porque com uma moeda honesta seria convergem ...
Izkata
2
@ Izkata Não é bem assim. A regressão à média indica que, com uma grande quantidade de tentativas, as faixas de ambos os lados devem ser uniformes e, quanto mais tentativas você fizer, mais próximo da verdadeira média que conseguirá. Se você inverteu o suficiente para obter uma sequência de 100 cabeças, provavelmente também possui faixas de rabos para equilibrá-lo em algum lugar da sua distribuição, uma vez que faixas de caras e coroas são igualmente prováveis. É importante ressaltar que a regressão à média não faz suposições em nenhum dado específico, apenas em valores agregados à medida que o tamanho da amostra aumenta.
Ethan
1
A falácia de @Izkata Gambler faz alegações sobre o que acontecerá com qualquer resultado específico. A regressão à média faz uma afirmação geral sobre o que esperaríamos de muitos resultados.
Derek Janni 31/03
5

Eu sempre tento lembrar que a regressão em relação à média não é um mecanismo compensatório para observar valores extremos.

Não há relação de causa e efeito entre ter uma excelente corrida de jogo e depois 50-50 depois disso. É apenas uma maneira útil de lembrar que, quando você faz amostragens de uma distribuição, é mais provável que você veja valores próximos da média (pense no que a desigualdade de Chebyshev tem a dizer aqui).

Sullysaurus
fonte
2
Yay Chebyshev! Ótimo ponto!
Derek Janni
4

Aqui está um exemplo simples: você decidiu jogar um total de 200 moedas. Até agora, você jogou 100 deles e teve muita sorte: 100% vieram à tona (incrível, eu sei, mas vamos manter as coisas simples).

Dependendo de 100 cabeças nos 100 primeiros lançamentos, você espera ter 150 cabeças no final do jogo. Um exemplo extremo da falácia do jogador seria pensar que você ainda espera apenas 100 cabeças no total (ou seja, o valor esperado antes de iniciar o jogo), mesmo depois de receber 100 nas primeiras 100 jogadas. O jogador acha que os próximos 100 lançamentos devem ser caudas. Um exemplo de regressão à média (nesse contexto) é que seu índice de cabeça de 100% deverá cair para 150/200 = 75% (ou seja, na média de 50%) ao terminar o jogo.

Adrian
fonte
1
@whuber, este não é o exemplo clássico da altura de pais e filhos, mas eu argumentaria que ela satisfaz a definição da Wikipedia: "regressão em direção a (ou para) a média é o fenômeno que se uma variável extremo em sua primeira medição, ele tenderá a estar mais próximo da média em sua segunda medição "
Adrian
3
Cuidado com a Wikipedia: sua linguagem introdutória se destina apenas a fornecer uma idéia heurística, mas raramente é uma definição. De fato, sua citação não é uma definição (porque não indica o que "extremo" significa)) nem é correta na maioria das interpretações. Por exemplo, para qualquer variável aleatória contínua, há exatamente uma chance de que o segundo de dois ensaios independentes esteja mais distante da média do que o primeiro. 1/2
whuber
1
Penso que fornecer uma descrição clara da falácia do jogador e da regressão à média pode ser mais importante do que oferecer exemplos. Quando apenas os exemplos são dados, não está claro como eles devem ser entendidos ou como eles se relacionam com esses dois assuntos.
whuber
1
Como alguém que pensa da mesma forma que o OP, seu segundo parágrafo é o único exemplo em todas as respostas que explicam claramente qual é a diferença. Agora faz mais sentido.
Izkata 31/03
1
@whuber Isso é exatamente o que a maioria das outras respostas está fazendo, e elas não estavam esclarecendo tudo para mim.
Izkata 31/03
2

Eu poderia estar errado, mas sempre pensei que a diferença estivesse na suposição de independência.

Na falácia do jogador, a questão é o mal-entendido da independência. Certamente, ao longo de um grande número N de lançamentos de moedas, você estará em uma divisão de 50 a 50, mas se por acaso você não estiver, o pensamento de que seu próximo lançamento de T ajudará a equilibrar as chances está errado, porque cada lançamento de moeda é independente de o anterior.

A regressão para a média é, onde eu a vejo usada, alguma idéia de que os sorteios dependem de sorteios anteriores ou de uma média / valores calculados anteriores. Por exemplo, vamos usar a porcentagem de arremessos da NBA. Se o jogador A fez, em média, 40% de seus chutes durante sua carreira e começa um novo ano disparando 70% em seus primeiros 5 jogos, é razoável pensar que ele voltará à média de sua carreira. Existem fatores dependentes que podem e influenciarão sua jogada: estrias quentes / frias, jogo de companheiros de equipe, confiança e o simples fato de que se ele mantivesse 70% de arremessos durante o ano, ele aniquilaria absolutamente vários registros que são simplesmente feitos físicos impossíveis. (sob as habilidades atuais de desempenho dos jogadores profissionais de basquete). À medida que você joga mais jogos, sua porcentagem de tiro provavelmente cairá mais perto da sua média de carreira.

Marsenau
fonte
Sua explicação da regressão à média soa mais como um estimador de retração. Você poderia fornecer uma definição específica do que você realmente entende por "regressão"?
whuber
Eu estava seguindo a idéia de "O fenômeno ocorre porque as pontuações dos alunos são determinadas em parte pela capacidade subjacente e em parte pelo acaso" da Wikipedia. Meu entendimento é que, embora exista um nível de probabilidade, os resultados são conduzidos por alguma habilidade subjacente.
Marsenau 29/03/16
2
Obrigado pelo esclarecimento. Não é evidente como essa ideia se aplica à ideia de que, à medida que a carreira avança, a média se aproxima da média da carreira. Isso soa como uma tautologia ou alguma versão de uma lei de grandes números. De fato, parece terrivelmente a própria falácia do jogador!
whuber
1
Ou sua média de carreira aumentará para conhecer suas novas habilidades. :) Eu acho que é um erro enlamear a água com uma habilidade improvável.
Erik
1
"incompreensão da independência" - este parece ser o ponto crítico. A regressão à média parece tornar os eventos independentes dependentes.
icc97
2

A chave é que não temos nenhuma informação que nos ajude no próximo evento (falácia do jogador), porque o próximo evento não depende do evento anterior. Podemos adivinhar razoavelmente como será uma série de ensaios. Essa estimativa razoável é a média conhecida como resultado médio esperado. Portanto, quando observamos um desvio na tendência média de volta à média, ao longo do tempo / tentativas, testemunhamos uma regressão à média.

Como você pode ver, a regressão à média é uma série de ações observadas , não é um preditor. À medida que mais ensaios são realizados, as coisas se aproximam mais de uma distribuição normal / gaussiana. Isso significa que não estou fazendo suposições ou adivinhando qual será o próximo resultado. Usando a lei dos grandes números , posso teorizar que, embora as coisas possam estar tendendo a uma maneira atualmente, com o tempo as coisas se equilibrarão. Quando eles se equilibram, o conjunto de resultados regrediu para a média. É importante observar aqui que não estamos dizendo que ensaios futuros dependem de resultados anteriores. Estou apenas observando uma mudança no balanço dos dados.

A falácia do jogador, como eu a entendo, é mais imediata em seus objetivos e se concentra na previsão de eventos futuros. Isso acompanha o que um jogador deseja. Normalmente, os jogos de azar são inclinados contra o jogador a longo prazo; portanto, um jogador quer saber qual será o próximo teste, porque deseja aproveitar esse conhecimento. Isso leva o jogador a assumir falsamente que o próximo teste depende do teste anterior. Isso pode levar a escolhas neutras como:

Nas últimas cinco vezes a roleta caiu no preto, então, da próxima vez, apostarei muito no vermelho.

Ou a escolha pode ser útil:

Eu ganhei um full house nas últimas 5 mãos, então vou apostar alto porque estou em uma sequência de vitórias e não posso perder.


Então, como você pode ver, existem algumas diferenças principais:

  1. A regressão à média não pressupõe que testes independentes sejam dependentes como a falácia do jogador.

  2. A regressão à média é aplicada sobre uma grande quantidade de dados / tentativas, onde a falácia do jogador está relacionada à próxima tentativa.

  3. A regressão à média descreve o que já ocorreu. A falácia do jogador tenta prever o futuro com base na média esperada e nos resultados passados.

Erik
fonte
1
Na verdade, não acho que a regressão à média tenha algo a ver com a lei dos grandes números ou que isso significa o que você diz que faz na primeira frase.
Ameba diz Reinstate Monica
@amoeba, por isso, se planejamos jogar uma moeda 100 vezes e 20 jogadas no julgamento, temos 20 cabeças. No final do julgamento, temos 55 cabeças. Estou tentando dizer que esse seria um exemplo de "regressão à média". Começou desequilibrado, mas com o tempo se normalizou. A lei dos grandes números foi outra maneira de expressar a idéia de que as coisas terão uma média de tentativas suficientes, o que é o mesmo que dizer que um desequilíbrio inicial se equilibrará ao longo do tempo ou regredirá à média.
Erik
1
Acho que estou começando a entender a essência desses temas com suas chaves, Erik. Lindo! :) xxx
Luis P.
2

Os alunos com notas mais altas que obtiveram pior pontuação nos trapaceiros de reteste?

A pergunta recebeu uma edição substancial desde a última das seis respostas.

A pergunta editada contém um exemplo de regressão à média no contexto das pontuações dos alunos em um teste verdadeiro-falso de perguntas e um reteste para os melhores desempenhos em um teste equivalente. O reteste mostra pontuações significativamente mais médias para o grupo de melhores desempenhos no primeiro teste. O que está acontecendo? Os alunos trapacearam pela primeira vez? Não, é importante controlar a regressão à média. O desempenho dos testes de múltipla escolha é uma combinação de sorte na adivinhação e habilidade / conhecimento. Uma parte das pontuações dos melhores desempenhos foi devido à boa sorte, que não foi necessariamente repetível na segunda vez.100

Ou eles deveriam simplesmente ficar longe da roleta?

Vamos primeiro supor que nenhuma habilidade esteja envolvida, que as do aluno estavam apenas lançando moedas (justas) para determinar suas respostas. Qual é a pontuação esperada? Bem, cada resposta tem independentemente chance de ser a correta, portanto, esperamos de ou uma pontuação de .50 % 100 5050%50%10050

2,8 % 300060%2.8%30006085

8560%50%10060%2.8%2852.8%8560%

50%1005050

Moedas da sorte e sorte flips

100055%G100045%B1000F) e distribuí-los aleatoriamente. Isso é análogo a supor maior / menor capacidade / conhecimento no exemplo de teste, mas é mais fácil argumentar corretamente sobre objetos inanimados.

(551000+451000+501000)/3000=5060%18.3%0.2%2.8%60%7.1%60%21

2160%50%10086%=18.3%/(18.3%+0.2%+2.8%)1%=0.2%/(18.3%+0.2%+2.8%)13%86%55+1%45+13%50=54.251006050

Portanto, mesmo quando algumas moedas são melhores do que outras, a aleatoriedade nas moedas vira um meio que selecionar os melhores desempenhos em um teste ainda exibirá alguma regressão à média em um novo teste. Nesse modelo modificado, a mão quente não é mais uma falácia absoluta - marcar melhor no primeiro turno significa uma maior probabilidade de ter uma boa moeda! No entanto, a falácia do jogador ainda é uma falácia - não se pode esperar que aqueles que experimentaram boa sorte sejam compensados ​​com má sorte no reteste.

A. Webb
fonte
Eu só tenho uma ideia. Vou simular esse modelo e ver como ele funciona.
Luis P.
1

Eles estão dizendo a mesma coisa. Você ficou bastante confuso porque nenhum experimento isolado no exemplo de troca de moedas tem resultado extremo (H / T 50/50). Altere para "lançando dez moedas justas ao mesmo tempo em todas as experiências", e os jogadores querem acertar todas elas. Então, uma medida extrema seria a de ver todas elas como cabeças.

Falácia do jogador: trate cada resultado da aposta (resultado da troca de moedas) como IID . Se você já conhece a distribuição que esses compartilhamentos IID, a próxima previsão deve vir diretamente da distribuição conhecida e não tem nada a ver com resultados históricos (ou futuros) (também conhecido como outro IID).

Regressão à média: trate cada resultado do teste como DII (uma vez que se supõe que o aluno esteja adivinhando aleatoriamente e não tenha nenhuma habilidade real). Se você já conhece a distribuição que o IID compartilha, a próxima previsão vem diretamente da distribuição conhecida e não tem nada a ver com resultados históricos (ou futuros) (também conhecido como outro IID) ( exatamente como antes até aqui ). Mas, pelo CLT , se você observou valores extremos em uma medição (por exemplo, por acaso você estava apenas amostrando os 10% melhores alunos do primeiro teste), você deve saber que o resultado da sua próxima observação / medição ainda será gerado a partir do conhecimento conhecido. distribuição (e, portanto, é mais provável que esteja mais próximo da média do que permanecer no extremo).

Então, fundamentalmente, os dois dizem que a próxima medição virá da distribuição, e não dos resultados anteriores.

Yey
fonte
Esta não é uma citação correta do teorema do limite central. É apenas uma declaração do que é um evento independente.
21418 AdamO:
0

Sejam X e Y duas variáveis ​​aleatórias uniformes em [0,1]. Suponha que os observemos um após o outro.

Falácia do jogador: P (Y | X)! = P (Y) Isso é, obviamente, um absurdo, porque X e Y são independentes.

Regressão para a média: P (Y <X | X = 1)! = P (Y <X) Isso é verdade: LHS é 1, LHS <1

anônimo
fonte
0

Obrigado por suas respostas. Acho que entendi a diferença entre a regressão à média e a falácia de Gambler. Ainda mais, criei um banco de dados para me ajudar a ilustrar o caso "real".

Construí essa situação: coletei 1000 alunos e os coloquei para fazer um teste, respondendo aleatoriamente a perguntas.

A pontuação do teste varia de 01 a 05. Como respondem aleatoriamente às perguntas, cada pontuação tem 20% de chance de ser alcançada. Portanto, para o primeiro teste, o número de alunos com pontuação 05 deve ser algo próximo a 200

10000,20

200

Eu tive 196 alunos com nota 05, o que é muito próximo dos 200 alunos esperados.

Então eu coloquei aqueles 196 alunos repetir o teste é esperado 39 alunos com pontuação 05.

1960,20

39

Bem, de acordo com o resultado, consegui 42 alunos, o que está dentro do esperado.

Para aqueles que obtiveram pontuação 05, eu os coloco para repetir o teste e assim por diante ...

Portanto, os números esperados foram:

RETEST 03 esperado

420,20

8

(3.3) Resultados (8)

RETEST 04 esperado

80,20

1,2

(4.3) Resultados (2)

RETEST 05 esperado

20,20

0,1

(4.3) Resultados (0)

0,204

0,205=0,00032

0,000323500=1.2

Portanto, a probabilidade de um aluno obter pontuação 05 em todos os 05 testes não tem nada a ver com sua última pontuação, quero dizer, não devo calcular a probabilidade de cada teste individualmente. Devo procurar esses 05 testes como um evento e calcular a probabilidade desse evento.

Luis P.
fonte