Digamos que estamos jogando repetidamente uma moeda justa e sabemos que o número de caras e coroas deve ser aproximadamente igual. Quando vemos um resultado como 10 caras e 10 coroas em um total de 20 lançamentos, acreditamos nos resultados e estamos inclinados a acreditar que a moeda é justa.
Bem, quando você vê um resultado como 10000 cabeças e 10000 caudas para um total de 20000 arremessos, eu realmente questionaria a validade do resultado (o pesquisador falsificou os dados), pois sei que isso é mais improvável do que, digamos, um resultado de 10093 cabeças e 9907 caudas.
Qual é o argumento estatístico por trás da minha intuição?
fonte
Gosto da explicação de Srikant e acho que a ideia bayesiana é provavelmente a melhor maneira de abordar um problema como esse. Mas aqui está outra maneira de vê-lo sem Bayes: (em R)
que é cerca de 31,2 no meu sistema. Em outras palavras, é mais de 30 vezes mais provável ver 10 em 20 do que 10.000 em 20.000, mesmo com uma moeda justa nos dois casos. Essa proporção aumenta sem limite à medida que o tamanho da amostra aumenta.
Essa é uma espécie de abordagem da razão de verossimilhança, mas, novamente, no meu intestino, parece um julgamento Bayesiano mais do que qualquer outra coisa.
fonte
Um argumento bayesiano subjetivista é praticamente a única maneira (do ponto de vista estatístico) de compreender sua intuição , que é - propriamente falando - o assunto de uma investigação psicológica , não estatística. No entanto, é claramente injusto - e, portanto, inválido - usar uma abordagem bayesiana para argumentar que um investigador falsificou os dados. A lógica disso é perfeitamente circular: resume-se a dizer "com base em minhas crenças anteriores sobre o resultado, acho o seu resultado incrível e, portanto, você deve ter trapaceado". Tal argumento ilógico de interesse próprio obviamente não se sustentaria em um tribunal ou em um processo de revisão por pares.
Embora esse teste não possa provar falsidade, ele pode ser aplicado a relatórios futuros desse pesquisador para avaliar a credibilidade de suas reivindicações, sem fazer suposições desagradáveis e não suportáveis com base apenas na sua intuição. Isso é muito mais justo e rigoroso do que invocar um argumento bayesiano para implicar alguém que pode ser perfeitamente inocente e que teve tanta sorte que obteve um belo resultado experimental!
fonte
Eu acho que sua intuição é falha. Parece que você está comparando implicitamente um único resultado "muito especial" (exatamente 10000 cabeças) com um conjunto de muitos resultados (todos os números "não especiais" de cabeças perto de 10000). No entanto, a definição de "especial" é uma escolha arbitrária baseada em nossa psicologia. Que tal o binário 10000000000000 (decimal 8192) ou o ABC hexadecimal (decimal 2748) - também seria suspeito de especial? Como Joris Meys comentou, o argumento de Bayes seria essencialmente o mesmo para qualquer número único de cabeças, implicando que cada resultado seria suspeito.
Para expandir um pouco o argumento: você deseja testar uma hipótese ("o pesquisador está fingindo") e, em seguida, escolhe uma estatística de teste (número de cabeças). Agora, essa estatística de teste é adequada para lhe contar algo sobre sua hipótese? Para mim, parece que a estatística de teste escolhida não é informativa (não é função de um parâmetro especificado como valor fixo na hipótese). Isso remonta à pergunta que você quer dizer com "trapaça". Se isso significa que o pesquisador controla a moeda à vontade, isso não se reflete na estatística do teste. Eu acho que você precisa ser mais preciso para encontrar um indicador quantificável e, assim, tornar a questão passível de um teste estatístico.
fonte
A conclusão que você tira dependerá MUITO do anterior que você escolher para a probabilidade de trapacear e da probabilidade anterior de que, dado o flipper estar deitado, x cabeças são relatadas.
Colocar o máximo de massa em P (10000 cabeças relatadas | mentindo) é um pouco contra-intuitivo na minha opinião. A menos que o repórter seja ingênuo, não consigo imaginar alguém relatando esse tipo de dados falsificados (principalmente pelas razões mencionadas no post original; isso é muito suspeito para a maioria das pessoas). Se a moeda é realmente injusta e o flipper deve denunciar dados falsificados, acho que um anterior mais razoável (e muito aproximado) dos resultados relatados pode ser um uniforme discreto anterior P (X cabeças relatadas | mentindo) = 1/201 para os números inteiros {9900, ..., 10100} e P (x cabeças relatadas | mentindo) = 0 para todos os outros x. Suponha que você acha que a probabilidade anterior de mentir é 0,5. Então, algumas probabilidades posteriores são:
P (mentindo | 9900 cabeças relatadas) = P (mentindo | 10100 cabeças relatadas) = 0,70;
P (deitado | 9950 cabeças relatadas) = P (deitado | 10050 cabeças relatadas) = 0,54;
P (mentindo | 10000 cabeças relatadas) = 0,47.
O número mais razoável de cabeças reportadas de uma moeda justa resultará em suspeita. Apenas para mostrar o quanto as probabilidades posteriores são sensíveis aos seus anteriores, se a probabilidade anterior de trapaça for reduzida para 0,10, as probabilidades posteriores se tornarão:
P (deitado | 9900 cabeças relatadas) = P (deitado | 10100 cabeças relatadas) = 0,21;
P (deitado | 9950 cabeças relatadas) = P (deitado | 10050 cabeças relatadas) = 0,11;
P (mentindo | 10000 cabeças relatadas) = 0,09.
Então eu acho que a resposta original (e altamente cotada) poderia ser expandida um pouco; de maneira alguma você deve concluir que os dados são falsificados sem considerar cuidadosamente as informações anteriores. Além disso, pensando nisso intuitivamente, parece que as probabilidades posteriores de mentir provavelmente serão mais influenciadas pela probabilidade anterior de mentir do que pela distribuição prévia de cabeças relatadas, uma vez que o nadador está mentindo (exceto os anteriores que colocam todos os sua massa em um pequeno número de cabeças relatadas, dado que o nadador está mentindo, como no meu exemplo.)
fonte
Para a explicação bayesiana, você precisa de uma distribuição de probabilidade anterior nos resultados relatados por um inversor de moedas, além de uma probabilidade anterior de mentir. Quando você vê um valor muito mais provável sob a distribuição de mentiras do que o aleatório, isso aumenta sua probabilidade posterior de mentir muito maior.
fonte