Determinar com segurança o tamanho da amostra para testes A / B

22

Eu sou um engenheiro de software que procura criar uma ferramenta de teste A / B. Não tenho um histórico sólido de estatísticas, mas tenho lido bastante nos últimos dias.

Estou seguindo a metodologia descrita aqui e resumirei os pontos relevantes abaixo.

A ferramenta permitirá que designers e especialistas em domínio configurem um site para dividir o tráfego recebido em um URL específico entre dois ou mais URLs. Por exemplo, o tráfego que chega a http://example.com/hello1 pode ser dividido entre http://example.com/hello1 e http://example.com/hello2 . O tráfego seria dividido igualmente entre os URLs de destino e o desempenho dos processos de marketing em cada um dos URLs de destino será comparado.

Nesta experiência, o tamanho da amostra Ncorresponderá aos visitantes. O teste medirá "conversões", um termo que descreve quando um visitante se compromete com uma ação específica em um processo de marketing. As conversões são expressas em porcentagens e uma taxa de conversão mais alta é desejável. Isso faz do teste uma comparação de proporções independentes. A ferramenta precisa ser capaz de ser facilmente empregada para produzir testes com resultados seguros. A seleção de um valor apropriado de Né importante.

No artigo vinculado acima, uma análise de poder de duas proporções independentes é empregada para encontrar N. Este método exige que se conheça a taxa de conversão do controle antecipadamente, bem como especifique a meta de melhoria de conversão desejada. Também especifica um nível de significância de 95% e um poder estatístico de 80%.

Questões:

  1. Este método é para determinar o Nsom? Em caso afirmativo, qual é a maneira mais segura de determinar a taxa de conversão do controle antes de iniciar o teste?
  2. Existem formas sólidas de determinar Nque não exijam que se conheça antecipadamente as taxas de conversão do controle?
  3. A metodologia do artigo vinculado é sólida? Caso contrário, existem métodos acessíveis e facilmente digeríveis por aí aos quais você poderia me vincular?
jkndrkn
fonte

Respostas:

12

O método mais comum para realizar esse tipo de teste é com intervalos de confiança de proporção binomial (consulte http://bit.ly/fa2K7B )

Você nunca poderá conhecer a taxa de conversão "verdadeira" dos dois caminhos, mas isso lhe permitirá dizer algo com o efeito "Com 99% de confiança, A é mais eficaz na conversão do que B".

Por exemplo: Vamos supor que você executou 1000 tentativas no caminho A. Dessas 1000 tentativas, 121 foram conversões bem-sucedidas (taxa de conversão de 0,121) e gostaríamos de um intervalo de confiança de 99% em torno desse resultado de 0,121. O z-score para intervalos de confiança de 99% é 2,576 (você só olhar isto em uma mesa), então de acordo com a Assim, com 99% de confiança, podemos dizer que0,094 p0,148, em que p é a taxa de conversão "verdadeiro" do processo A.

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

Se construirmos um intervalo semelhante para o processo B, podemos comparar os intervalos. Se os intervalos não se sobrepõem, podemos dizer com 98% de confiança que um é melhor que o outro. (Lembre-se de que temos apenas 99% de confiança em cada intervalo, portanto nossa confiança geral sobre a comparação é de 0,99 * 0,99)

NN

Boa sorte para você. (Estou torcendo pelo processo B, a propósito).

Ronny
fonte
2
LATEXp^
p^0.094p^0.148sucessestrialsp^p
Esta resposta está incorreta. Especificamente: "Se os intervalos não se sobrepõem, podemos dizer com 98% de confiança que um é melhor que o outro" está errado. Dados dois intervalos de confiança de 99% não sobrepostos, a confiança de que a diferença exclui 0 como pelo menos 99%. Se os intervalos forem do mesmo tamanho, a diferença é significativa em torno do nível de 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan
@Bscan Seu comentário vale para outros valores? Por exemplo, é correto dizer (de acordo com o seu elogio) que a diferença dos meios é de pelo menos 30% se tivermos dois intervalos de confiança não sobrepostos de 30% do mesmo tamanho?
Felipe Almeida
1
@ Felipe, sim, o comentário vale para todos os valores e intervalos de confiança de 30% não sobrepostos implica a confiança de que a diferença exclui 0 é pelo menos 30%. No entanto, isso não significa que há uma diferença de 30% nas médias. Os verdadeiros meios podem ser muito semelhantes; estamos simplesmente tentando provar que não são exatamente iguais.
Bscan
8

IMHO, na medida em que vai, o post vai na direção certa. Contudo:

  • O método proposto faz implicitamente duas suposições: a taxa de conversão da linha de base e a quantidade esperada de alteração. O tamanho da amostra depende muito de como você cumpre essas premissas. Eu recomendo que você calcule os tamanhos de amostra necessários para várias combinações de p1 e p2 que você acha realistas. Isso dará a você uma idéia da confiabilidade do cálculo do tamanho da amostra.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Portanto, se a taxa de conversão real for 9% em vez de 10%, você precisará de mais 2000 casos para cada cenário para detectar a taxa de conversão de 10% acima da linha de base do novo formulário.

Após a conclusão do teste, você pode calcular intervalos de confiança para as proporções com base em suas observações reais.

  • n
    nsig.level
cbeleites suporta Monica
fonte
Olá, muito obrigado por reservar um tempo para criticar esses métodos. No cálculo (1 - α) ² ≈ 10%, a que se refere "α"? Como a captura de dados de teste leva muito tempo, como você propõe que se construa esse experimento se quiser testar três proporções? Existe uma maneira segura de fazer isso que não envolva a execução de vários testes? Com três alternativas, três testes não são terrivelmente onerosos, mas com quatro alternativas o número de combinações dispara até seis.
Jkndrkn # 7/12
1
@jkndrkn: α é a probabilidade de falsamente se afastar da forma original, também conhecida como erro α ou erro tipo I. Veja a resposta atualizada.
Cbeleites suporta Monica
1
@jkndrkn: testes múltiplos: eu daria uma olhada em Fleiss et.al .: Métodos estatísticos para taxas e proporções sobre procedimentos para esses testes. No entanto, o ponto principal de vários testes é sempre usar o conhecimento especializado para reduzir o número de alternativas o máximo possível antes de definir o teste, porque os tamanhos de amostra necessários explodem com o número de alternativas (como você já percebeu).
Cbeleites suporta Monica