Testes A / B: teste z vs teste t vs qui quadrado vs teste exato de fisher

38

Estou tentando entender o raciocínio escolhendo uma abordagem de teste específica ao lidar com um teste A / B simples - (ou seja, duas variações / grupos com uma resposta binária (convertida ou não) .Como exemplo, usarei os dados abaixo

Version  Visits  Conversions
A        2069     188
B        1826     220

A resposta principal aqui é ótima e fala sobre algumas das suposições subjacentes aos testes z, t e chi quadrado. Mas o que acho confuso é que diferentes recursos online citarão abordagens diferentes, e você pensaria que as suposições para um teste A / B básico devem ser praticamente as mesmas?

  1. Por exemplo, este artigo usa o z-score :insira a descrição da imagem aqui
  2. Este artigo usa a seguinte fórmula (que não tenho certeza se é diferente do cálculo do zscore?):

insira a descrição da imagem aqui

  1. Este artigo faz referência ao teste t (p 152):

insira a descrição da imagem aqui

Então, que argumentos podem ser feitos em favor dessas diferentes abordagens? Por que alguém teria uma preferência?

Para lançar mais um candidato, a tabela acima pode ser reescrita como uma tabela de contingência 2x2, onde o teste exato de Fisher (p5) pode ser usado

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Mas, de acordo com este tópico , o teste exato de Fisher deve ser usado apenas com amostras menores (qual é o limite?)

E há testes t e z emparelhados, teste f (e regressão logística, mas quero deixar isso de fora por enquanto) .... Sinto que estou me afogando em diferentes abordagens de teste e só quero poder faça algum tipo de argumento para os diferentes métodos neste caso de teste A / B simples.

Usando os dados de exemplo, estou obtendo os seguintes valores p

  1. https://vwo.com/ab-split-test-significance-calculator/ fornece um valor p de 0,001 (escore z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (usando o teste do qui quadrado) fornece um valor-p de 0,00259

  3. E em R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuedá um valor-p de 0,002785305

Que eu acho que são todos bem próximos ...

Enfim - apenas esperando uma discussão saudável sobre quais abordagens usar nos testes on-line, onde os tamanhos das amostras geralmente estão na casa dos milhares, e as taxas de resposta geralmente são 10% ou menos. Meu instinto está me dizendo para usar o qui-quadrado, mas quero ser capaz de responder exatamente por que o escolhi entre as várias outras maneiras de fazê-lo.

L Xandor
fonte
Quanto aos testes e sua pergunta já foi respondida aqui: stats.stackexchange.com/questions/85804/…tzt
Tim
Achei esta demonstração bastante útil. O que mostra que o teste z para proporções é essencialmente equivalente ao teste qui-quadrado de homogeneidade na tabela de contingência 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Respostas:

24

Usamos esses testes por diferentes razões e sob diferentes circunstâncias.

  1. zzzz

  2. ttttz

zt

  1. ztz

  2. ppp

Continuo discutindo o tamanho das amostras - referências diferentes fornecerão métricas diferentes sobre quando suas amostras são grandes o suficiente. Eu apenas encontraria uma fonte respeitável, observaria a regra deles e aplicaria a regra para encontrar o teste que você deseja. Eu não "compraria", por assim dizer, até encontrar uma regra que "goste".

zt

Isso faz sentido? Espero que isto ajude!

Matt Brems
fonte
Obrigado pela resposta detalhada! Vou analisá-lo em detalhes - tenho certeza de que vou fazer algumas perguntas!
Xandor # 28/15
Você poderia explicar como o teste do qui-quadrado e exato de Fisher não indica a direção de um efeito? Se todos os testes de estatística inferencial fornecem um nível de confiança para determinar se dois conjuntos de amostras são retirados de populações diferentes ou da mesma população, o que há na teoria matemática que não permite que você diga que a diferença direcional nos valores médios se manteria (grupo B tem pontuação mais alta)?
Chris F
Para maior clareza, o teste do qui-quadrado e o teste exato de Fisher estão fazendo a mesma coisa, mas o valor-p é calculado de maneira ligeiramente diferente. (É uma aproximação em qui-quadrado e um cálculo exato em exato de Fisher.) Vou abordar o qui-quadrado e ele será generalizado para o de Fisher. A questão aqui é a premissa. "Se todos os testes estatísticos inferenciais fornecerem um nível de confiança em torno de duas amostras serem retiradas de ..." - não é isso que o teste qui-quadrado faz. A hipótese nula para o teste do qui-quadrado é que não há nenhuma associação e a hipótese alternativa ...
Matt Brems
... é que existe alguma associação entre as duas variáveis ​​categóricas. Você está apenas testando a existência de uma associação e não pré-especificando uma determinada direção. (Existem algumas estatísticas menos conhecidas por aí que especificam um determinado relacionamento, por isso é possível; no entanto, não é para isso que o teste do qui-quadrado foi projetado.) Para inferir posteriormente que existe um relacionamento direcional específico com base em um valor p calculado sob um conjunto diferente de hipóteses projetado para testar apenas a existência de uma associação seria um erro.
precisa saber é o seguinte
H0 0:μ=0 0HUMA:μ0 0tpμμH0 0:μ0 0HUMA:μ>0 0pα=0,05μ