Como um frequentista calcula a chance de o grupo A vencer o grupo B em relação à resposta binária

... (opcional) no contexto do Google Web Optimizer.

Suponha que você tenha dois grupos e uma variável de resposta binária. Agora você obtém o seguinte resultado:

Original : 401 tentativas, 125 tentativas bem-sucedidas
Combinação16 : 441 tentativas, 141 tentativas bem-sucedidas

A diferença não é estatisticamente significativa, no entanto, pode-se calcular uma probabilidade de que o Combination16 vença o Original.

Para calcular "Chance to beat Original", usei uma abordagem bayesiana, ou seja, realizando uma integração bidimensional monte carlo sobre os intervalos de confiança no estilo bayesiano (distribuição beta, (0,0) anterior). Aqui está o código:

trials <- 10000
resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1),
                    "opt"=rbeta(trials,144+1,441-144+1))
length(which(resDat$opt>resDat$orig))/trials

Isso resulta em 0,6764.

Qual técnica um freqüentador usaria para calcular "Chance to beat ..."? Talvez a função de poder do teste exato de Fisher?

Opcional: contexto do Google Web Optimizer

O Google Web Optimizer é uma ferramenta para controlar testes multivariados ou testes A / B. Isso apenas como uma introdução, pois isso não deve importar para a pergunta em si.

O exemplo apresentado acima foi retirado da página de explicação do Google Web Optimizer (GWO), que você pode encontrar aqui (role para baixo até a seção " Intervalos estimados da taxa de conversão "), especificamente da figura 2.

Aqui, o GWO oferece 67,8% para "Chance to beat Original", que difere um pouco do meu resultado. Acho que o Google usa uma abordagem mais frequente e me perguntei: o que poderia ser?

Edição: Como esta questão estava prestes a desaparecer (acho que por causa de sua natureza muito específica), reformulei-a como sendo de interesse geral.

bayesian ab-test Steffen
fonte

Do ponto de vista freqüentista, o Original vence a Combinação ou não. Não há "chance" ou probabilidade envolvida.

charles.y.zheng

@ charles.y.zheng hm ... você pode calcular a potência de um teste, ou seja, a probabilidade de a hipótese nula ser rejeitada assumindo os parâmetros verdadeiros. Como você chamaria isso?

Steffen

@ steffen: isso é chamado de nível de significância, ou . O poder de um teste é com que frequência ele rejeita a hipótese nula quando a alternativa é verdadeira.

α

$\alpha$

charles.y.zheng

@ charles.y.zheng eu sabia disso;). Se você acha que essa probabilidade não pode ser calculada pelos freqüentadores, por que não enviá-la como resposta. Se a comunidade concordar, fico feliz em aceitá-lo :).

Steffen

@ steffen: É fácil obter o nível de significância de um teste por cálculo ou simulação. O nível de potência de um teste é definido apenas com relação a uma alternativa específica. É por isso que não é possível calcular um "poder" geral de um teste; essa noção não pode ser definida.

charles.y.zheng

Respostas:

Aproveitarei isso como uma oportunidade para explicar algumas questões fundamentais sobre a diferença entre as estatísticas freqüentistas e bayesianas, interpretando as práticas freqüentistas do ponto de vista bayesiano.

$D_1$ $D_2$ $p_1$ $p_2$ $f_i(p_i)$ $F_i(p_i)$ $p_1 > p_2$

P [p_{1} > p_{2}; f_{1}, f_{2}] = \frac{\int_{0}^{1} \int_{0}^{1} I (p_{1} > p_{2}) P [D_{1} | p_{1}] P [D_{2} | p_{1}] d F_{1} (p_{1}) d F_{2} (p_{2})}{\int_{0}^{1} \int_{0}^{1} P [D_{1} | p_{1}] P [D_{2} | p_{1}] d F_{1} (p_{1}) d F_{2} (p_{2})}

$P[p_1 > p_2;f_1,f_2] = \frac{\int_0^1 \int_0^1 I(p_1 > p_2) P[D_1|p_1] P[D_2|p_1] dF_1(p_1) dF_2(p_2)}{\int_0 ^1 \int_0^1 P[D_1|p_1] P[D_2|p_1] dF_1(p_1) dF_2(p_2) }$

$f_1(p_1)$ $f_2(p_2)$

$\theta$

$g_{\theta_i}(p_i)$

g_{θ_{i}} (p_{i}) = δ (θ_{i})

$g_{\theta_i}(p_i) = \delta (\theta_i)$

$\theta_i$

P [p_{1} > p_{2}; g_{θ_{1}}, g_{θ_{2}}] = δ_{θ_{1}, θ_{2}}

$P[p_1 > p_2;g_{\theta_1},g_{\theta_2}] = \delta_{\theta_1, \theta_2}$

$\theta_1 = \theta_2$

Assim, o frequentista permanece em silêncio. (Ou, alternativamente, faz a declaração trivial: "A probabilidade está entre 0 e 1 ...")

charles.y.zheng
fonte

Desculpa eu estava errado. Eu finalmente aprendi (entre outros aqui ), que os freqüentadores nem sequer podem calcular intervalos de confiança em dados empíricos. Portanto, minhas idéias de acompanhamento (que não revelei) sobre como um freqüentador responderia à minha pergunta também estavam erradas. Estou pouco insegura, no entanto, uma vez que a questão tem 4, mas sua resposta não um único upvote :(.

Steffen

Agora não me sinto confortável com a mistura de idéias bayesianas e freqüentistas (por exemplo, quando você diz como os freqüentadores lidam com os anteriores (o que eles não fazem, não é?)). Talvez a resposta seja simplesmente como você coloca nos comentários: um freqüentador não pode responder à pergunta, pois ela está errada na visão de mundo (como Dikran escreveu aqui ). Desculpe novamente por não acreditar em você antes.

31511 steffen

Talvez minha interpretação não tenha sido tão convencional quanto eu acreditava, mas não há nada intrinsecamente errado em colocar os métodos frequentistas e bayesianos em pé de igualdade. Veja a Teoria da Estimação de Pontos de Lehmann e Casella, na qual os métodos freqüentista e bayesiano são comparados via teoria da decisão estatística.

Charles.y.zheng