Valide os testes a / b da web executando novamente uma experiência - isso é válido?

11

Um webinar outro dia, realizado por uma empresa de testes a / b, solicitou que o "Data Scientist" residente explicasse que você deveria validar seus resultados executando novamente o experimento. A premissa era que, se você selecionar 95% de confiança, há 5% (1/20) de chance de um falso positivo. Se você repetir sua experiência com as mesmas restrições, agora há 1/400 (suponho que eles determinaram isso como 0,05 ^ 2 = 1/400)

Esta declaração é válida? (ou seja, "execute duas vezes, duas vitórias de significância estatística = 1/400 de probabilidade de falso positivo")? Teria sido uma abordagem melhor para aumentar seu nível de significância?

Do ponto de vista comercial, a preocupação que tenho é reexecutando o experimento, você está expondo mais usuários a uma página inferior (tratamento) e, assim, perdendo vendas em potencial.

John
fonte
2
Olá John, bem-vindo ao Stats.SE! Se estiver satisfeito com alguma das respostas, aceite uma delas ou forneça perguntas mais esclarecedoras sobre o que está procurando.
Christopher Aden
John, suspeito que o verdadeiro problema esteja relacionado ao contexto. É raro que as pessoas dediquem recursos para aprender apenas uma coisa de cada vez: desejam aproveitar ao máximo seus dados, por um bom motivo. Isso significa que cada conjunto de dados será usado para vários testes. Além disso, às vezes os testes são post hoc : eles foram inspirados pelos padrões vistos nos dados. Nesses casos, os testes realmente não têm a confiança e a replicação desejadas de 95% (ou o que seja) são essenciais. Então: o que exatamente você quer dizer com "experimento"? A resposta depende desse pequeno detalhe!
whuber
Sobre repetições de experimentos e valores de significância, verifique este quadrinho do XKCD: xkcd.com/882 Depois de ler isso, verifique o comentário acima.
Lucas Gallindo
whuber: desculpe pela falta de detalhes, estou fazendo referência à otimização de sites. Portanto, um exemplo de experiência seria testar duas versões da minha página inicial, com uma divisão de 50/50 de usuários para cada.
John John

Respostas:

3

Ignorando as probabilidades de um falso positivo no momento, eu consideraria o seguinte:

  1. Se você executar o experimento duas vezes e obter o mesmo resultado, não tem idéia se houve dois resultados positivos verdadeiros ou dois resultados positivos falsos consecutivos.
  2. Se você executar o experimento duas vezes e obter dois resultados diferentes, não saberá qual é o verdadeiro positivo e qual foi o resultado do falso positivo.

Em ambos os casos, você deve executar um terceiro experimento, apenas para ter certeza. Talvez isso seja bom para experimentos que são relativamente baratos, mas onde o custo é potencialmente alto (como a perda de clientes), você realmente precisa considerar o benefício.

Observando as probabilidades, na primeira vez que você executa o experimento, há uma chance de 1/20 de um falso positivo. Na segunda vez que você executa o experimento, ainda existe uma chance de 1/20 de um falso positivo (pense nisso como rolar um dado em que cada teste tem 1/6 de chance de obter um determinado número). Há apenas uma chance de 1/400 de ter dois falsos positivos consecutivos.

O problema real é ter uma hipótese bem definida com procedimentos rigorosos e ter um tamanho de amostra, nível de erro e intervalo de confiança com os quais você possa viver ou pagar. A repetição do experimento deve ser deixada para explorar

  1. clientes ao longo do tempo
  2. mudanças feitas pela organização
  3. mudanças feitas pela competição

em vez de segundos resultados de adivinhação. Embora explicar isso para os gerentes seja mais fácil dizer do que fazer.

mjc
fonte
mjc, muito obrigado pelo comentário - é exatamente isso que eu estava procurando.
John John
2

Sim, essa afirmação está correta, supondo que seu experimento seja ideal. Mas obter um experimento ideal é muito mais difícil do que esse sentimento dá credibilidade. Os dados do mundo real são confusos, complicados e difíceis de interpretar. Há um tremendo espaço para análises falhas, variáveis ​​ocultas (raramente existem "as mesmas restrições") ou falhas de comunicação entre um cientista de dados que faz seu trabalho e um executivo de marcação fazendo o seu.

Do ponto de vista comercial, garanta uma boa metodologia e não confie demais nos resultados; um desafio mais complicado do que você imagina. Depois de baixá-los, trabalhe nesses 5%.

Eric Chiang
fonte
Obrigado, isso responde à primeira pergunta. E a segunda pergunta: "Teria sido uma abordagem melhor para aumentar seu nível de significância?" Apenas fazendo uma simulação rápida em R (mantendo o mesmo tamanho e poder de efeito, alterando apenas o valor de significância), eu poderia coletar ~ 4,8% menos dados simplesmente escolhendo 97,5% de significância, em vez de executar experimentos 2X com significância de 95%. Devo esclarecer - quando pergunto "Teria sido melhor ..." Quero dizer, eu poderia alcançar o mesmo resultado final coletando menos dados.
John John