Sou responsável por apresentar os resultados dos testes A / B (executados em variações de sites) na minha empresa. Executamos o teste por um mês e, em seguida, verificamos os valores de p em intervalos regulares até atingirmos o significado (ou abandonamos se o significado não for alcançado após a execução do teste por um longo tempo), algo que estou descobrindo agora é uma prática equivocada .
Quero interromper essa prática agora, mas, para fazer isso, quero entender POR QUE isso está errado. I compreender que o tamanho do efeito, o tamanho da amostra (N), o critério de significância alfa (α) e poder estatístico, ou o beta escolhido ou implícita (β) são matematicamente relacionadas. Mas o que exatamente muda quando paramos o teste antes de atingirmos o tamanho de amostra necessário?
Eu li alguns posts aqui (ou seja , isso , isso e isso ), e eles me dizem que minhas estimativas seriam tendenciosas e a taxa do meu erro tipo 1 aumenta drasticamente. Mas como isso acontece? Estou procurando uma explicação matemática , algo que mostre claramente os efeitos do tamanho da amostra nos resultados. Acho que tem algo a ver com as relações entre os fatores que mencionei acima, mas não consegui descobrir as fórmulas exatas e resolvê-las por conta própria.
Por exemplo, interromper o teste prematuramente aumenta a taxa de erro do Tipo 1. Bem. Mas por que? O que acontece para aumentar a taxa de erro do tipo 1? Estou sentindo falta da intuição aqui.
Ajuda por favor.
Respostas:
Como podemos ver, o ajuste é muito eficaz e demonstra o quão radical temos que alterar o valor-p para controlar a taxa de erro familiar. Especificamente, agora não encontramos mais nenhum teste significativo, como deveria ser porque a hipótese nula de @ Berhard é verdadeira.
Aqui está o código:
fonte
Se a hipótese nula for verdadeira, as pessoas geralmente esperam que o valor de p seja muito alto. Isso não é verdade. Se a hipótese nula for verdadeira, então p é uma variável aleatória distribuída uniformemente. O que significa que, de tempos em tempos, será abaixo de 0,05 aleatoriamente. Se você observar várias subamostras diferentes, às vezes o valor de p estará abaixo de 0,05.
Para facilitar a compreensão, aqui está uma pequena simulação em
R
:Isso jogará uma moeda 10.000 vezes e sabemos que é uma moeda justa:
A partir do 5º arremesso, isso executará um teste binomial de justiça após cada arremesso e salvará os valores de p:
E isso plotará os valores-p um após o outro:
(Apenas para ser perfeitamente aberto, tentei mais de uma semente para o gerador de números antes de ficar tão claro quanto este exemplo, mas isso é justo para fins educacionais. Se você
R
instalou e está em execução, pode jogar facilmente com os números .)fonte