É o fenômeno dos "dois melhores de três". Você conhece a piada:
"Vamos virar isso."
"OK vá!"
"Opa, eu perdi. Que tal jogar mais duas vezes, com o vencedor sendo o melhor dos três tempos totais?"
O teste de significância é exatamente como o lançamento de moedas (mas com moedas tendenciosas, geralmente). Se você executar um teste curto e ele não for significativo, talvez você possa alcançar um significado (em parte por sorte) prolongando o teste.
O inverso disso (estou tentado a dizer o "outro lado" disso :-)) é que, se você planeja realizar um certo número de testes e passa a ver um resultado "significativo" cedo, isso também não é bom. É análogo ao contrário do nosso primeiro concurso:
"Vamos virar o jogo. Melhores dois dos três?"
"OK vá!"
"Ha, eu ganhei o primeiro flip, então eu ganhei!"
Dito isto, observe que existem versões de teste que permitem monitorar o significado (nominal) à medida que avança. Eles funcionam como encerrar um concurso mais cedo, quando ele fica muito unilateral, as chamadas regras de misericórdia . Se, no início, se tornar extremamente óbvio que uma diferença é real, você poderá economizar tempo e esforço finalizando o teste. Estes são chamados procedimentos de teste de hipótese seqüencial . Pode-se argumentar que essa deve ser sua maneira padrão de conduzir testes AB, porque, a longo prazo, você gastará menos tempo e esforço em geral.