Argumento estatístico sobre por que 10.000 cabeças de 20.000 lançamentos sugerem dados inválidos

11

Digamos que estamos jogando repetidamente uma moeda justa e sabemos que o número de caras e coroas deve ser aproximadamente igual. Quando vemos um resultado como 10 caras e 10 coroas em um total de 20 lançamentos, acreditamos nos resultados e estamos inclinados a acreditar que a moeda é justa.

Bem, quando você vê um resultado como 10000 cabeças e 10000 caudas para um total de 20000 arremessos, eu realmente questionaria a validade do resultado (o pesquisador falsificou os dados), pois sei que isso é mais improvável do que, digamos, um resultado de 10093 cabeças e 9907 caudas.

Qual é o argumento estatístico por trás da minha intuição?

Haibao Tang
fonte

Respostas:

21

Assumindo uma moeda justa, o resultado de 10000 cabeças e 10000 caudas é realmente mais provável do que um resultado de 10093 cabeças e 9907 caudas.

No entanto, quando você diz que é improvável que um experimentador real obtenha um número igual de cara e coroa, você está implicitamente invocando o teorema de Bayes. Sua crença anterior sobre um experimento real é que Prob (número de cabeças = 10000 em 20.000 arremessos | Dado que o pesquisador não está fingindo) é próximo de 0. Portanto, quando você vê um resultado real de que o 'número de cabeças = 10000' é seu posterior sobre Prob (o Experimentador não está fingindo | o resultado observado de 10.000 cabeças) também está próximo de 0. Assim, você conclui que o pesquisador está fingindo os dados.


fonte
Muito bem explicado! Que exemplo maravilhoso para a abordagem do teorema de Bayes.
Tal Galili 23/11
1
@ Krikant: esse prior não pode ser formalmente definido. De qualquer forma, o Prob (o número de cabeças = X | o pesquisador não está fingindo) está sempre próximo de zero quando N = 20000, independentemente do valor de X e do anterior. Portanto, seu posterior para qualquer número também é sempre próximo de 0. Não vejo o que isso tem a ver com o teorema de Bayes.
Joris Meys
Tudo isso de um cara que estava escondido tentando provar que Deus existia. Elegante, realmente.
precisa
1
Colocando isso em uma perspectiva mais geral, o ponto com o qual eu concordo é que o teorema de Bayes está em ação aqui. Especificamente, existem probabilidades alternativas (correspondentes a diferentes processos generativos) para trapacear e para experimentadores honestos. Estabelecer a trapaça é uma inferência posterior em relação ao processo intuitivo e, portanto, lamentavelmente subespecificado.
conjugateprior
1
@Srikant @whuber: os combinatórios ... você está certo. Comecei com uma probabilidade uniforme, o que não faz sentido neste caso. Meu mal
Joris Meys
12

Gosto da explicação de Srikant e acho que a ideia bayesiana é provavelmente a melhor maneira de abordar um problema como esse. Mas aqui está outra maneira de vê-lo sem Bayes: (em R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

que é cerca de 31,2 no meu sistema. Em outras palavras, é mais de 30 vezes mais provável ver 10 em 20 do que 10.000 em 20.000, mesmo com uma moeda justa nos dois casos. Essa proporção aumenta sem limite à medida que o tamanho da amostra aumenta.

Essa é uma espécie de abordagem da razão de verossimilhança, mas, novamente, no meu intestino, parece um julgamento Bayesiano mais do que qualquer outra coisa.


fonte
Por que razão? Por que não declarar que a probabilidade desse empate exato é extremamente baixa?
Andy W
5
A afirmação de que uma probabilidade específica está fora do contexto não é convincente. A probabilidade de eu ter exatamente a altura da minha altura (seja ela qual for) é zero. E, sim, é problemático definir altura com precisão infinita, yada, yada, yada ... Meu argumento é que o turbilhão da existência se agita com eventos de probabilidade infinitesimal acontecendo o tempo todo! 10.000 em 20.000 - fora de contexto - não me surpreendem. Independentemente de qual seja sua probabilidade numérica.
9

Um argumento bayesiano subjetivista é praticamente a única maneira (do ponto de vista estatístico) de compreender sua intuição , que é - propriamente falando - o assunto de uma investigação psicológica , não estatística. No entanto, é claramente injusto - e, portanto, inválido - usar uma abordagem bayesiana para argumentar que um investigador falsificou os dados. A lógica disso é perfeitamente circular: resume-se a dizer "com base em minhas crenças anteriores sobre o resultado, acho o seu resultado incrível e, portanto, você deve ter trapaceado". Tal argumento ilógico de interesse próprio obviamente não se sustentaria em um tribunal ou em um processo de revisão por pares.

α= Nível de 5% veria qualquer resultado entre 9.996 e 10.004 como suspeito, porque (a) essa coleção está próxima dos nossos resultados "falsificados" e (b) sob a hipótese nula de não falsificação (inocente até que se prove o contrário no tribunal!) , um resultado nesse intervalo tem apenas uma chance de 5% (na realidade, 5.07426%). Além disso, podemos colocar essa abordagem aparentemente ad hoc em um contexto de qui-quadrado (a la Fisher) simplesmente ajustando o desvio entre a proporção observada e a proporção esperada e, em seguida, invocando o lema de Neyman-Pearson em um teste de uma cauda no cauda baixa e aplicação da aproximação Normal à distribuição binomial .

Embora esse teste não possa provar falsidade, ele pode ser aplicado a relatórios futuros desse pesquisador para avaliar a credibilidade de suas reivindicações, sem fazer suposições desagradáveis ​​e não suportáveis ​​com base apenas na sua intuição. Isso é muito mais justo e rigoroso do que invocar um argumento bayesiano para implicar alguém que pode ser perfeitamente inocente e que teve tanta sorte que obteve um belo resultado experimental!

whuber
fonte
5

Eu acho que sua intuição é falha. Parece que você está comparando implicitamente um único resultado "muito especial" (exatamente 10000 cabeças) com um conjunto de muitos resultados (todos os números "não especiais" de cabeças perto de 10000). No entanto, a definição de "especial" é uma escolha arbitrária baseada em nossa psicologia. Que tal o binário 10000000000000 (decimal 8192) ou o ABC hexadecimal (decimal 2748) - também seria suspeito de especial? Como Joris Meys comentou, o argumento de Bayes seria essencialmente o mesmo para qualquer número único de cabeças, implicando que cada resultado seria suspeito.

Para expandir um pouco o argumento: você deseja testar uma hipótese ("o pesquisador está fingindo") e, em seguida, escolhe uma estatística de teste (número de cabeças). Agora, essa estatística de teste é adequada para lhe contar algo sobre sua hipótese? Para mim, parece que a estatística de teste escolhida não é informativa (não é função de um parâmetro especificado como valor fixo na hipótese). Isso remonta à pergunta que você quer dizer com "trapaça". Se isso significa que o pesquisador controla a moeda à vontade, isso não se reflete na estatística do teste. Eu acho que você precisa ser mais preciso para encontrar um indicador quantificável e, assim, tornar a questão passível de um teste estatístico.

caracal
fonte
+1, mas não estou convencido. O que é especial em cerca de 10.000 é que ele é exatamente igual ao número esperado de cabeças, sob a hipótese de que a moeda é justa. Este fato é independente de qualquer psicologia ou sistema de representação numérica. A análise nesta resposta pode fornecer algumas dicas sobre uma situação em que, digamos, 20.005 moedas foram lançadas e 10.000 cabeças (e, portanto, 10.005 caudas) foram anotadas e a "intuição" de alguém sugeriu falsidade.
whuber
Concordo plenamente que - como você indica em sua resposta - tudo depende da definição a priori da hipótese: se você definir com antecedência que "fingindo o experimento" significa "alcançar um resultado para o número de cabeças que é" próximo ao valor esperado ", essa é a base para um teste estatístico com" número de cabeças "como estatística de teste. No entanto, sem esse esclarecimento a priori, o significado de "fingir" e "valor especial para o número de cabeças" permanece nublado, e não está claro o que eles têm a ver um com o outro.
Caracal
4

A conclusão que você tira dependerá MUITO do anterior que você escolher para a probabilidade de trapacear e da probabilidade anterior de que, dado o flipper estar deitado, x cabeças são relatadas.

Colocar o máximo de massa em P (10000 cabeças relatadas | mentindo) é um pouco contra-intuitivo na minha opinião. A menos que o repórter seja ingênuo, não consigo imaginar alguém relatando esse tipo de dados falsificados (principalmente pelas razões mencionadas no post original; isso é muito suspeito para a maioria das pessoas). Se a moeda é realmente injusta e o flipper deve denunciar dados falsificados, acho que um anterior mais razoável (e muito aproximado) dos resultados relatados pode ser um uniforme discreto anterior P (X cabeças relatadas | mentindo) = 1/201 para os números inteiros {9900, ..., 10100} e P (x cabeças relatadas | mentindo) = 0 para todos os outros x. Suponha que você acha que a probabilidade anterior de mentir é 0,5. Então, algumas probabilidades posteriores são:

P (mentindo | 9900 cabeças relatadas) = ​​P (mentindo | 10100 cabeças relatadas) = ​​0,70;

P (deitado | 9950 cabeças relatadas) = ​​P (deitado | 10050 cabeças relatadas) = ​​0,54;

P (mentindo | 10000 cabeças relatadas) = ​​0,47.

O número mais razoável de cabeças reportadas de uma moeda justa resultará em suspeita. Apenas para mostrar o quanto as probabilidades posteriores são sensíveis aos seus anteriores, se a probabilidade anterior de trapaça for reduzida para 0,10, as probabilidades posteriores se tornarão:

P (deitado | 9900 cabeças relatadas) = ​​P (deitado | 10100 cabeças relatadas) = ​​0,21;

P (deitado | 9950 cabeças relatadas) = ​​P (deitado | 10050 cabeças relatadas) = ​​0,11;

P (mentindo | 10000 cabeças relatadas) = ​​0,09.

Então eu acho que a resposta original (e altamente cotada) poderia ser expandida um pouco; de maneira alguma você deve concluir que os dados são falsificados sem considerar cuidadosamente as informações anteriores. Além disso, pensando nisso intuitivamente, parece que as probabilidades posteriores de mentir provavelmente serão mais influenciadas pela probabilidade anterior de mentir do que pela distribuição prévia de cabeças relatadas, uma vez que o nadador está mentindo (exceto os anteriores que colocam todos os sua massa em um pequeno número de cabeças relatadas, dado que o nadador está mentindo, como no meu exemplo.)

Peludo
fonte
Penso que esta é uma resposta muito boa, mas discordo do seu segundo parágrafo. Não acho que a probabilidade condicional original de Srikant seja contra-intuitiva e, simplesmente porque é uma pergunta difícil de responder, não é um argumento contra. Também não acho que sua probabilidade uniforme de ficar entre 9900 e 10100 faça algum sentido, embora seja útil para fins de demonstração.
Andy W
2

Para a explicação bayesiana, você precisa de uma distribuição de probabilidade anterior nos resultados relatados por um inversor de moedas, além de uma probabilidade anterior de mentir. Quando você vê um valor muito mais provável sob a distribuição de mentiras do que o aleatório, isso aumenta sua probabilidade posterior de mentir muito maior.

Internet
fonte