Determinando o tamanho da amostra antes de iniciar um experimento ou executá-lo indefinidamente?

12

Estudei estatística anos atrás e esqueci tudo, então podem parecer questões conceituais gerais do que qualquer coisa específica, mas aqui está o meu problema.

Trabalho em um site de comércio eletrônico como UX Designer. Temos uma estrutura de teste A / B que foi construída anos atrás e estou começando a duvidar disso.

A métrica em que tomamos todas as nossas decisões é conhecida como conversão e é baseada na porcentagem de usuários que visitam o site, e acaba comprando alguma coisa.

Portanto, queremos testar a alteração da cor do botão Comprar de verde para azul.

O controle é o que já temos, o botão Verde, onde sabemos qual é a nossa taxa de conversão média. O experimento está substituindo o botão verde pelo botão azul.

Concordamos que 95% de significância é o nível de confiança com que estamos satisfeitos e ativamos o experimento e o deixamos em execução.

Quando os usuários visitam o site, nos bastidores, há uma chance de 50/50 de serem enviados para a versão de controle (botão verde) versus a versão experimental (botão azul).

Depois de analisar o experimento após 7 dias, vejo um aumento de 10,2% na conversão em favor do experimento, com um tamanho de amostra de 3000 (1500 indo para o controle, 1500 para o experimento) e uma significância estatística de 99,2%. Excelente eu acho.

O experimento continua, o tamanho da amostra aumenta e, em seguida, vejo um aumento de + 9% na conversão, com um significado de 98,1%. Ok, mantenha o experimento em execução por mais tempo e agora o experimento mostra apenas um aumento de 5% na conversão com uma significância estatística de apenas 92%, com a estrutura me dizendo que preciso de mais 4600 amostras antes de atingir 95% de significância?

Em que ponto o experimento é conclusivo, então?

Se eu pensar em dizer um processo de ensaio clínico em que você concorda com o tamanho da amostra antecipadamente e ao concluir o experimento, você vê uma melhoria de 10% em qualquer métrica com significância de 99%, então é tomada a decisão de que esse medicamento vá ao mercado. Mas se eles tivessem feito o experimento em 4.000 pessoas e virem uma melhoria de 5% de qualquer métrica para apenas 92% de significância, esse medicamento não teria permissão para entrar no mercado.

Devemos concordar com o tamanho da amostra com antecedência e parar quando o tamanho da amostra for atingido e ficar satisfeitos com os resultados se a significância for de 99% no momento de desativar o experimento?

Tech 75
fonte
1
Você pode considerar usar uma abordagem diferente com base na classificação e seleção .
pjs
Me deparei com este filme ( youtube.com/watch?v=fl9V0U2SGeI ). Parece-me que responde a sua pergunta exatamente.
1957 Nathan Nathan
Também vale a pena notar que a parte subjacente do estudo é altamente reflexiva, de movimento rápido e requer testes de repetição constantes. Layouts, cores, botões, etc, movem-se rapidamente à medida que novos sites, padrões e estilos aparecem. Também há um alto nível de problemas combinatórios (esse botão pode retornar resultados diferentes com um ligeiro ajuste na cor do plano de fundo, etc.). Como resultado, independentemente dos níveis de significância, você não pode ter um nível de confiança "verdadeiro" muito alto (e certamente não por longos períodos) nos resultados, mesmo que pareçam muito fortes.
Philip

Respostas:

11

Eu acho que o conceito que você está procurando é análise sequencial. Há várias perguntas neste site marcadas com o termo que você pode achar útil, talvez Ajustando o valor de p para análise seqüencial adaptativa (para teste do qui quadrado)? seria um lugar para começar. Você também pode consultar o artigo da Wikipedia aqui . Outro termo de pesquisa útil é o gasto alfa, que deriva do fato de que, ao observar cada repetição, você deve considerar que está consumindo parte do seu alfa (nível de significância). Se você continuar espiando seus dados sem levar em consideração as múltiplas comparações, encontrará o tipo de problema descrito na sua pergunta.

mdewey
fonte
Obrigado, essas são algumas boas recomendações de leitura. Eu nem saberia o que procurar, caso contrário. Vai consumir isso.
Tech 75
5

Em que ponto o experimento é conclusivo, então?

Eu acho que é aqui que está o erro de pensar. Não há nenhum ponto em que o experimento possa ser "conclusivo" se você entender isso como "provar dedutivamente a causa". Ao fazer um experimento que envolve um teste estatístico, você precisa se comprometer com as evidências que considera boas o suficiente.

Os procedimentos experimentais estatisticamente sólidos fornecem resultados com taxas conhecidas de falsos positivos e falsos negativos. Se você escolheu um procedimento que usa 0,05 como limite de significância, está dizendo que está disposto a aceitar que, em 5% dos casos em que não há realmente nenhuma diferença, seu teste dirá que há uma diferença.

Se você se desviar do procedimento da maneira que descreve (não escolhendo um ponto de parada antes do tempo, basta executar o teste até que o valor de p calculado caia abaixo de 0,05 ou executar toda a experiência várias vezes até obter um resultado positivo , etc.), você está aumentando a probabilidade de seu teste informar que existe uma diferença quando, de fato, não há diferença. Você está aumentando a probabilidade de ser enganado ao pensar que sua mudança foi eficaz. Não se deixe enganar.

Leia este documento: A psicologia do falso-positivo A flexibilidade não revelada na coleta e análise de dados permite apresentar algo como significativo

Ele destaca várias maneiras pelas quais você pode interferir indevidamente em um procedimento de teste que aumenta a probabilidade de você ser enganado, incluindo o cenário exato que você descreve (sem saber quando parar um experimento).

Outras respostas oferecem algumas soluções para atenuar esses problemas (análise seqüencial, correção de Bonferroni para múltiplas comparações). Mas essas soluções, enquanto capaz de controlar a taxa de falso-positivo, tipicamente reduzir o poder do experimento, tornando menos provável para detectar diferenças quando eles fazer existir.


Há outro erro que você está cometendo. Você fala sobre "uma melhoria de 10% de qualquer métrica para significância de 99%". Os testes de significância apenas podem dizer se é provável que a diferença observada na sua amostra seja devida a uma diferença real subjacente ou apenas a ruídos aleatórios; eles não fornecem intervalos de confiança em torno do que é a verdadeira magnitude da diferença.

Ciência
fonte
3

Eu acho que você está fazendo a pergunta errada aqui. A pergunta que você está fazendo é sobre testes estatísticos; Eu acho que a pergunta certa é "por que o efeito está mudando ao longo do tempo?"

Se você está medindo uma variável 0/1 para conversão (eles compraram alguma coisa?), As pessoas que não compraram em uma sessão inicial podem voltar e comprar mais tarde. Isso significa que a taxa de conversão aumentará com o tempo e qualquer efeito de comprar um cliente na primeira visita, em oposição a visitas posteriores, será perdido.

Em outras palavras, primeiro acerte o que está medindo e depois se preocupe com o que está medindo.

efreeman
fonte
3

É exatamente por isso que um critério claro precisa ser definido antes dos testes. Como @mdewey indica, existem métodos estabelecidos para avaliar periodicamente um teste, mas todos eles exigem um critério de parada claro para evitar qualquer embaraço na decisão. Duas questões críticas são que você precisa corrigir várias comparações e que cada análise não é independente, mas seu resultado é fortemente influenciado pelos resultados de suas análises anteriores.

Como alternativa, pode ser uma boa prática definir um tamanho de amostra definido com base em argumentos comercialmente relevantes.

Primeiro, a empresa deve concordar sobre o que é uma mudança comercialmente relevante na taxa de conversão (ou seja, qual o tamanho da diferença necessária para justificar uma justificativa comercial para que a mudança seja implantada permanentemente). Sem concordar com isso, não há uma referência sensata.

Depois que o tamanho mínimo do efeito comercialmente relevante é determinado (observe que isso pode mudar caso a caso, dependendo da gravidade da etapa que está sendo testada), você concorda com o nível de risco que a empresa está disposta a aceitar por perder um efeito verdadeiro ( beta) e por aceitar um efeito falso (alfa).

Depois de ter esses números conectados à calculadora de tamanho de amostra e pronto, você terá seu tamanho de amostra definido para tomar uma decisão.


EDITAR

Usar amostras pequenas e esperar que elas mostrem um efeito suficientemente grande é uma economia falsa (já que seu objetivo é resultados confiáveis ​​e acionáveis, em vez de gerar hipóteses controversas para publicação acadêmica). Assumindo uma amostragem imparcial, em tamanhos de amostra baixos, a probabilidade de selecionar aleatoriamente amostras que ocorrem em extremos opostos é maior do que em tamanhos de amostra altos. Isso leva a uma maior probabilidade de rejeitar uma hipótese nula quando, de fato, não há diferença. Portanto, isso significaria promover mudanças que não estão realmente causando um impacto real ou, pior ainda, tendo um impacto ligeiramente negativo. Essa é uma maneira diferente de explicar o que a @ Science está falando quando declara

"você está aumentando a probabilidade de seu teste dizer que existe uma diferença quando na verdade não há diferença"

O ponto de pré-especificar sua análise estatística (seja um tamanho de amostra fixo como eu descrevo ou uma estratégia de avaliação múltipla) é que você equilibre adequadamente as demandas dos erros do tipo I e II. Sua estratégia atual parece se concentrar nos erros do tipo I e ignorar completamente o tipo II.

Como muitos outros respondentes afirmaram que os resultados nunca são conclusivos, mas se você considerou os erros do tipo I e II e seu impacto nos seus negócios, terá a maior confiança que pode esperar para implementar mudanças com base nos resultados. No final, a tomada de decisão é estar confortável com seu nível de risco e nunca tratar seus "fatos" como imutáveis.

Estou intrigado com outros aspectos do desenho do seu estudo que podem estar influenciando os resultados que você vê. Eles podem revelar alguns fatores sutis que não são o que você deseja.

As pessoas selecionadas para a amostra são todos os novos visitantes, todos os visitantes que retornam ou isso não é diferenciado? Os clientes estabelecidos podem ter uma tendência maior a optar por algo novo (tão inclinado a mudar não uma cor específica), mas, para novos clientes, tudo é novo.

As pessoas reais que clicam recorrem novamente dentro do prazo do estudo?

Se as pessoas visitam várias vezes durante o período do estudo, elas são apresentadas com a mesma versão ou são alocadas aleatoriamente em tempo real?

Se o visitante recorrente for incluído, existe o risco de fadiga da exposição (não é mais uma distração porque não é mais novo)

ReneBt
fonte
Obrigado por isso. Você faz um ótimo ponto ao concordar com uma alteração comercialmente relevante na conversão com antecedência. Mas, como no comércio eletrônico, pequenas alterações na conversão podem afetar as vendas, será um valor bastante baixo.
Tech 75
A diferença mínima necessária para ser pequeno não é um problema, ele garantirá que você ligue adequadamente.
ReneBt
0

A prática comum geralmente determina que você decida primeiro sobre o tamanho da amostra (para controlar o poder estatístico do seu teste de hipótese) e depois realize o experimento.

Em resposta à sua posição atual, parece que você está depois de combinar uma série de testes de hipóteses. Eu recomendo que você olhe para o método de Fisher. Além disso, você provavelmente vai querer examinar os métodos de Brown ou Kost para acomodar o método de Fisher a estatísticas de teste dependentes. Como outro entrevistado mencionou, a conversão (ou não) de um cliente afetará se ele fará ou não uma compra na próxima visita - independentemente da cor do botão.

Pensamentos posteriores:

  1. Mais informações e fontes sobre os métodos de Fisher e suas extensões podem ser encontradas no artigo da Wikipedia sobre o método de Fisher.
  2. Eu sinto que é importante mencionar que um experimento nunca é realmente conclusivo. Um pequeno valor p não indica que seu resultado é conclusivo - apenas que a hipótese nula é improvável com base nos dados que você adquiriu.
Octavio Urista
fonte