Um webinar outro dia, realizado por uma empresa de testes a / b, solicitou que o "Data Scientist" residente explicasse que você deveria validar seus resultados executando novamente o experimento. A premissa era que, se você selecionar 95% de confiança, há 5% (1/20) de chance de um falso positivo. Se você repetir sua experiência com as mesmas restrições, agora há 1/400 (suponho que eles determinaram isso como 0,05 ^ 2 = 1/400)
Esta declaração é válida? (ou seja, "execute duas vezes, duas vitórias de significância estatística = 1/400 de probabilidade de falso positivo")? Teria sido uma abordagem melhor para aumentar seu nível de significância?
Do ponto de vista comercial, a preocupação que tenho é reexecutando o experimento, você está expondo mais usuários a uma página inferior (tratamento) e, assim, perdendo vendas em potencial.
Respostas:
Ignorando as probabilidades de um falso positivo no momento, eu consideraria o seguinte:
Em ambos os casos, você deve executar um terceiro experimento, apenas para ter certeza. Talvez isso seja bom para experimentos que são relativamente baratos, mas onde o custo é potencialmente alto (como a perda de clientes), você realmente precisa considerar o benefício.
Observando as probabilidades, na primeira vez que você executa o experimento, há uma chance de 1/20 de um falso positivo. Na segunda vez que você executa o experimento, ainda existe uma chance de 1/20 de um falso positivo (pense nisso como rolar um dado em que cada teste tem 1/6 de chance de obter um determinado número). Há apenas uma chance de 1/400 de ter dois falsos positivos consecutivos.
O problema real é ter uma hipótese bem definida com procedimentos rigorosos e ter um tamanho de amostra, nível de erro e intervalo de confiança com os quais você possa viver ou pagar. A repetição do experimento deve ser deixada para explorar
em vez de segundos resultados de adivinhação. Embora explicar isso para os gerentes seja mais fácil dizer do que fazer.
fonte
Sim, essa afirmação está correta, supondo que seu experimento seja ideal. Mas obter um experimento ideal é muito mais difícil do que esse sentimento dá credibilidade. Os dados do mundo real são confusos, complicados e difíceis de interpretar. Há um tremendo espaço para análises falhas, variáveis ocultas (raramente existem "as mesmas restrições") ou falhas de comunicação entre um cientista de dados que faz seu trabalho e um executivo de marcação fazendo o seu.
Do ponto de vista comercial, garanta uma boa metodologia e não confie demais nos resultados; um desafio mais complicado do que você imagina. Depois de baixá-los, trabalhe nesses 5%.
fonte