Estou tentando entender o raciocínio escolhendo uma abordagem de teste específica ao lidar com um teste A / B simples - (ou seja, duas variações / grupos com uma resposta binária (convertida ou não) .Como exemplo, usarei os dados abaixo
Version Visits Conversions
A 2069 188
B 1826 220
A resposta principal aqui é ótima e fala sobre algumas das suposições subjacentes aos testes z, t e chi quadrado. Mas o que acho confuso é que diferentes recursos online citarão abordagens diferentes, e você pensaria que as suposições para um teste A / B básico devem ser praticamente as mesmas?
- Por exemplo, este artigo usa o z-score :
- Este artigo usa a seguinte fórmula (que não tenho certeza se é diferente do cálculo do zscore?):
- Este artigo faz referência ao teste t (p 152):
Então, que argumentos podem ser feitos em favor dessas diferentes abordagens? Por que alguém teria uma preferência?
Para lançar mais um candidato, a tabela acima pode ser reescrita como uma tabela de contingência 2x2, onde o teste exato de Fisher (p5) pode ser usado
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Mas, de acordo com este tópico , o teste exato de Fisher deve ser usado apenas com amostras menores (qual é o limite?)
E há testes t e z emparelhados, teste f (e regressão logística, mas quero deixar isso de fora por enquanto) .... Sinto que estou me afogando em diferentes abordagens de teste e só quero poder faça algum tipo de argumento para os diferentes métodos neste caso de teste A / B simples.
Usando os dados de exemplo, estou obtendo os seguintes valores p
https://vwo.com/ab-split-test-significance-calculator/ fornece um valor p de 0,001 (escore z)
http://www.evanmiller.org/ab-testing/chi-squared.html (usando o teste do qui quadrado) fornece um valor-p de 0,00259
E em R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
dá um valor-p de 0,002785305
Que eu acho que são todos bem próximos ...
Enfim - apenas esperando uma discussão saudável sobre quais abordagens usar nos testes on-line, onde os tamanhos das amostras geralmente estão na casa dos milhares, e as taxas de resposta geralmente são 10% ou menos. Meu instinto está me dizendo para usar o qui-quadrado, mas quero ser capaz de responder exatamente por que o escolhi entre as várias outras maneiras de fazê-lo.
Respostas:
Usamos esses testes por diferentes razões e sob diferentes circunstâncias.
Continuo discutindo o tamanho das amostras - referências diferentes fornecerão métricas diferentes sobre quando suas amostras são grandes o suficiente. Eu apenas encontraria uma fonte respeitável, observaria a regra deles e aplicaria a regra para encontrar o teste que você deseja. Eu não "compraria", por assim dizer, até encontrar uma regra que "goste".
Isso faz sentido? Espero que isto ajude!
fonte
Para um teste de três vias, você geralmente usa uma ANOVA em vez de três testes separados. Por favor, verifique também a correção de Bonferroni antes de realizar vários testes. Use este https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=chrome&ie=UT
fonte