O G-Test é uma maneira de obter estimativas rápidas de uma distribuição quadrado chi, e é recomendado pelo autor deste tutorial bem conhecido teste A / B .
Essa ferramenta assume uma distribuição normal e usa diferenças de meios para calcular a confiança.
Qual é a diferença entre um teste G e um teste T? Quais são os benefícios ou desvantagens de usar cada método para medir a eficácia de nossos testes A / B?
Estou tentando descobrir qual deles devo usar para medir os resultados da minha estrutura de teste A / B. Nossa estrutura possui dois casos de uso geral: divida o grupo de visitantes uniformemente, mostre a cada um um recurso diferente e avalie sua conversão em outra página (por exemplo, a página de inscrição); e divida o grupo de visitantes no grupo controle (90%) e no grupo experimental (10%) para um teste e avalie as conversões em outra página.
Nosso site recebe entre 1000 e 200.000 visitas por dia (estou sendo vago de propósito para ocultar o número verdadeiro, o que não muda muito). Essas visitas são divididas com uma distribuição exponencial em cerca de 300 páginas.
Obrigado Kevin
fonte
Respostas:
Em geral, o teste que é menos aproximado no cálculo das estatísticas de teste é melhor, embora todos convergam para os mesmos resultados com o aumento do tamanho da amostra.
Portanto, como os testes A / B geralmente se concentram em resultados binários, ...
Resposta curta:
Use o teste G, porque é menos aproximado.
Resposta longa:
O teste t, em A / B, testa o caso de tamanhos de amostra desiguais e variância desigual , aproxima a diferença de duas distribuições com uma distribuição t, que é questionável por si mesma . As duas distribuições podem ser desconhecidas, mas considera-se que sua média e variação são suficientes para descrevê-la (caso contrário, qualquer conclusão não ajudará muito), o que é claro para a distribuição normal.
No caso especial de resultado binário, a distribuição binomial pode ser aproximada com uma distribuição normal comμ = n p ,σ2= n p ( 1 - p ) , que é válido para n ∗ p ∗ ( 1 - p ) ≥ 9 (regra geral, n = ensaios,p = taxa de sucesso).
Portanto, em resumo, embora seja correto aplicar o teste t, são realizadas duas aproximações para transformar o caso binomial em um caso mais genérico, o que não é necessário aqui, uma vez que testes menos aproximados como o teste G ou (melhor ainda) ) O teste exato de Fisher está disponível para este caso especial. O teste exato de Fisher deve ser aplicado especialmente se o tamanho da amostra for menor que 20 (outra regra do polegar), mas acho que isso não importa em um teste A / B sólido.
fonte
A página de Ben Tilly que você mencionou é um excelente resumo dos testes A / B para iniciantes. À medida que você entra em questões mais detalhadas / problemas de design do estudo, vale a pena procurar fontes primárias mais detalhadas. Kohavi et al publicaram um artigo seminal sobre testes AB, que é uma boa combinação de abrangência e legibilidade. Eu recomendo: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .
De volta às suas perguntas, as perguntas reais que você deve se perguntar são:
À medida que você trabalha com essas perguntas, você acaba tendo uma melhor compreensão dos parâmetros de teste. Combinado com o conhecimento do seu domínio (por exemplo, se o seu site apresenta um forte padrão cíclico que você deseja controlar), apetite por expor os usuários a experimentos (você está realmente disposto a mostrar a experiência do tratamento para muitos usuários ou prefere conter o dano potencial) e a velocidade desejada para obter resultados, esse entendimento o guiará para determinar como dividir o tráfego geral entre controles e tratamentos.
Detesto responder a perguntas específicas com "depende", mas, neste caso, depende realmente do que está acontecendo com o site e a experiência. Sob certas condições, não fará diferença significativa dividir o tráfego 50/50 ou 90/10, enquanto em circunstâncias diferentes isso pode ser muito importante. YMMV, mas uma boa referência como o artigo citado acima definitivamente o levará na direção certa.
fonte
Não posso comentar na postagem original porque não tenho pontos do StackExchange ou o que quer, mas eu só queria ressaltar que, para o valor p, o ABBA não usa um simples teste Z baseado em aproximação normal, embora eu possa veja como você pode pensar isso a partir de uma breve leitura da página. O ABBA usa estatísticas binomiais exatas até o tamanho da amostra 100, além do que depende da aproximação normal com uma correção de continuidade. Eu não vi casos em que isso difere muito dos testes "menos aproximados", mas eu estaria muito interessado em ver esses casos se você os encontrar.
Não há distribuições t ou testes t presentes em nenhum caso.
Para intervalos de confiança, ele sempre se baseia em uma aproximação normal, embora use o método Agresti-Coull, que funciona muito bem.
fonte