Digamos que eu tenho um amigo (vamos chamá-lo de "George") que diz que ele pode controlar o lançamento de dados usando sua mente (ou seja, aumentar a probabilidade de os dados caírem em um número específico em que ele está pensando).
Como posso projetar um teste cientificamente rigoroso para determinar se ele realmente pode fazer isso? (Eu realmente não acho que ele possa, é claro, mas quero que ele concorde com os detalhes de um teste, estilo Randi incrível, antes do início do teste.) Quero reduzir as (muito provavelmente) desculpas pós-teste que ele vai inventar.
Aqui está o que eu tenho até agora:
Determinar a técnica física de rolagem de dados (que dados, shaker cup, superfície de pouso, etc.)
Defina uma "sessão de teste", consistindo em X jogadas dos dados. Isso precisa ser pequeno o suficiente para ser feito em uma sessão, mas grande o suficiente para determinar (após análise) entre 95% e 99% de confiança se os dados caíram justos ou favoreceram um lado
Execute sessões Y nos dados escolhidos (sem a influência de George), como um "controle" para garantir que os dados mostrem resultados "justos" por conta própria
Execute sessões Z com George. Antes de cada um, jogue um dado separado para determinar em que número George "se concentrará" durante toda a sessão.
Compile e analise os resultados.
George inventa algumas desculpas por sua performance sombria.
Então, minhas perguntas para você:
Alguma falha ou problema com minha metodologia geral? Qualquer coisa que George provavelmente se oporia?
Devo usar um D6? Ou um D20? Isso importa? Um dado com mais faces exigiria mais testes para produzir resultados igualmente confiáveis? Ou o contrário? Eu preferiria menos rolos do que mais, devido a considerações práticas :)
Quais são os valores razoáveis para X , Y e Z ? Eles não são totalmente independentes; se meu valor escolhido de X permitir apenas 95% de confiança para uma única sessão, 1 em cada 20 sessões poderá "falhar", mesmo sem a influência de George
Como eu defino "sucesso" ou "falha" para uma sessão individual? (Encontrei essa pergunta que aborda os detalhes de um teste qui-quadrado, então acho que essa é minha metodologia de avaliação, mas quais são os limites razoáveis de confiança?)
Como defino "sucesso" ou "falha" para o teste geral? George pode "vencer" uma única sessão por mero acaso, mas quantas das sessões Z ele teria que passar para passar no teste inteiro?
Provavelmente analisarei esses resultados em uma planilha do MS Excel, se isso fizer alguma diferença.
Respostas:
Eu recomendaria analisar isso da seguinte maneira:
Conte cada papel em que George predisse com êxito o resultado como um sucesso e todos os outros como um fracasso. Então, você calcula facilmente uma probabilidade de sucesso para George e um intervalo de confiança de 95% ou 99%. Ele afirma que pode prever o resultado "duas vezes mais" do que jogar aleatoriamente os dados? Então:
H0: p> = 1/3
H1: p <1/3
(assumindo um dado de 6 lados).
A partir daí, é bastante simples fazer o teste de hipóteses. Além disso, você pode calcular a potência a priori com bastante facilidade (mesmo em algo como o Excel). Escolha um número de rolos (como 10) e faça uma tabela com os sucessos possíveis como linhas (0-10). Então, para cada sucesso, calcule a probabilidade de ele ter tantos sucessos (se ele estiver apenas adivinhando, que é o que estamos assumindo que ele esteja fazendo). Além disso, para cada valor, determine se isso levaria a uma rejeição ou aceitação do nulo. Então, para encontrar o poder, você pode simplesmente adicionar todas as probabilidades em que o nulo seria rejeitado.
fonte
Um D20 exigirá mais testes para o mesmo nível de significância para George ter sucesso, com certeza, se você precisar executar o teste do qui-quadrado. Eu não acho que você precise executar o teste do quadrado inteiro. Você só precisa verificar se os dados rolam o número "escolhido" com mais frequência do que o acaso. Eu usaria apenas o cdf do binomial para calcular o valor p de rolar o número escolhido com mais frequência do que o acaso com como o parâmetro binomial para D6. Eu acho que é fácil determinar o número com base no valor-p necessário para o sucesso de George. Eu nem tenho certeza de que você precisa de sessões Z. Por que não apenas executar uma sessão para cada lado do dado. A randomização do lado escolhido é importante para as hipóteses em que você está interessado? Xθ=16 X
fonte