Teste AB versus teste da hipótese nula

8

Estou tentando entender a diferença entre

  1. testar a hipótese nula (ou seja, testar se a probabilidade de um "objetivo" é a mesma em 2 populações diferentes, semelhante ao prop.test em R)

  2. um teste A / B usando uma fórmula bayesiana, como descrito aqui: http://www.evanmiller.org/bayesian-ab-testing.html

Existe alguma diferença? É preferível?

O problema que estou enfrentando é mais ou menos assim:

grupo de controle tem 100.000 impressões e 100 reações grupo de teste tem 50.000 impressões e 55 reações

user35581
fonte

Respostas:

10

Existe alguma diferença?

Sim. Um teste de hipótese nula produz uma estatística de teste e um valor p, a probabilidade de uma estatística de teste tão extrema quanto a dos dados, sob a suposição de que a hipótese nula seja verdadeira. No seu exemplo, prop.testtesta a suposição de que e são iguais. Isso é diferente da probabilidade descrita em seu link, :pUMApBPr(pB>pUMA)

Nos seus dados, prop.testproduz um valor de p de 0,6291; interpretamos isso como se , ver dados tão extremos em aproximadamente 63% dos experimentos. Mas isso não é diretamente interpretável como a probabilidade de a alternativa superar o controle. Usando a fórmula da postagem vinculada, chega-se a , que é diretamente interpretável como tal. (Código Python após o intervalo.)pUMA=pBPr(pB>pUMA)0,726

Para ganhar um pouco de intuição sobre isso, observe as duas densidades posteriores para .pUMA,pB

Beta (56, 49946), Beta (101, 99901)

  1. O modo de está claramente à direita do modo de . Em outras palavras, nossa estimativa pontual para é maior. Esperado, desde .pBpUMApB5550000>100100000
  2. O posterior para é mais disperso. Intuitivamente satisfatório: desde que observamos A duas vezes mais, estamos mais confiantes em um posterior mais estreito.pB
  3. Ainda há muita sobreposição - é concebível que os dois tratamentos simplesmente não sejam significativamente diferentes.

0 0Diferença de distribuições beta

Para reiterar, o valor-p diz apenas que os dados não atingem a extremidade em que estaríamos convencidos de que existe uma diferença.

É preferível?

Essa questão é um exemplo da escolha bayesiana mais ampla v. Freqüentista, e frequentemente se volta para questões de opinião. Em geral, acredito que a resposta depende de muitos fatores, incluindo preferência de aplicação, público-alvo e analista. Aqui estão algumas maneiras de ver a diferença entre os dois, que esperamos ajudar a mostrar quando um pode ser preferível.

Uma boa introdução aos testes Bayesian A / B coloca assim:

Qual dessas duas afirmações é mais atraente:

(1) "Rejeitamos a hipótese nula de que A = B com um valor de p de 0,043".

(2) "Existe uma chance de 85% de que A tenha um aumento de 5% sobre B."

A modelagem bayesiana pode responder a perguntas como (2) diretamente.

Para outra visão, o estatístico teórico Larry Wasserman descreve bem as duas escolas de pensamento:

Mas, primeiro, devo dizer que a inferência Bayesiana e Frequentista são definidas por seus objetivos, não por seus métodos.

O objetivo da inferência freqüentista: construir procedimento com garantias de frequência. (Por exemplo, intervalos de confiança.)

O objetivo da inferência bayesiana: quantifique e manipule seus graus de crenças. Em outras palavras, a inferência bayesiana é a Análise das Crenças.


>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
...     total = 0.0
...     for i in range(a_B):
...         total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
...     return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843
Sean Easter
fonte