O problema do mundo real
Um dos meus clientes está se preparando para enviar uma mala direta para sua lista de usuários inscritos, e esse desafio estatístico surgiu.
Sua equipe de marketing possui três brochuras diferentes e deseja saber qual brochura obtém a maior taxa de resposta. Eles também gostariam de saber se o envio da mala direta com um endereço escrito à mão, em um envelope grosso, melhora os resultados em comparação com um envelope normal.
Vamos assumir o seguinte:
- Para cada brochura ( ), uma pessoa que recebe a brochura que realmente a abre e lê, responde com probabilidade , em que é a verdadeira taxa de resposta dessa brochura
- Os envelopes espessos e de alta qualidade têm uma taxa de abertura real de enquanto os envelopes normais têm uma taxa de abertura de
- De correspondências anteriores, esperamos que as taxas reais de resposta observadas estejam entre aproximadamente 1% e 5%.
Nossos Objetivos
Queremos encontrar a melhor brochura enquanto enviamos o menor número de malas diretas. Também queremos estimar as duas taxas de abertura.
Ao coletar taxas de resposta empírica de remetentes enviados reais, se a verdadeira diferença entre as taxas de resposta for maior que meio por cento, poderemos detectar essa diferença como estatisticamente significativa com
Meus pensamentos até agora
Atribuímos usuários aleatoriamente a cada uma das três brochuras, de forma que usuários recebam cada brochura. Queremos saber o que precisamos para alcançar a sensibilidade desejada na detecção de diferenças nas taxas de resposta. Supondo o pior caso, precisamos ser capazes de detectar uma diferença entre taxas verdadeiras de 1% e 1,5%. O SD para essa diferença é . Definir duas vezes essa quantidade (2 desvios-padrão nos dá 95% de confiança) igual a 0,005 (nossa metade desejada) leva à solução .N √ N=3948
Questões
- Esse é o design ideal ou podemos fazer melhor?
- Meu cálculo de correto?
Finalmente, qual é a melhor maneira de estimar e , ou simplesmente a diferença entre os dois? o t h i c k
Minha idéia era atribuir aleatoriamente metade de cada grupo de folhetos a cada tipo de envelope. Dentro de cada grupo de folhetos, as taxas de resposta observadas seriam o produto das taxas de abertura e do . Isso complicaria meu cálculo de acima, pois realmente eu deveria ter usado esse produto no meu cálculo. N
Minha resposta dependeria então de uma estimativa da taxa média de abertura - - que eu teria que adivinhar. Além disso, não sei como determinar a distribuição da diferença entre e , já que agora temos três estimativas diferentes dessa diferença, cada uma das quais depende de um diferente , cada uma das quais temos apenas estimativas empíricas de, estimativas empíricas que dependem do nosso palpite à taxa média aberta. onormalothickri
Muito obrigado por qualquer ajuda com isso.
Respostas:
Existem fórmulas empíricas para determinar o tamanho da amostra. O teste subjacente é um teste t de duas amostras para igualdade da métrica (taxa de resposta no seu caso). Supondo que você queira que o poder do teste seja 80%, uma dessas fórmulas é que é o padrão std da métrica (taxa de resposta) e é a quantidade de alteração na taxa de resposta que você deseja resolver de maneira confiável (com significância estatística).n = 16 σ2/ Δ2 σ Δ
Além disso, existem projetos fatoriais fracionários disponíveis que permitem otimizar o número de tentativas (supondo que você não queira medir as interações de cada fator com todos os outros fatores). Este é um documento de pesquisa sobre desenho experimental que descreve os detalhes.
fonte
Suponha que você enviou folhetos e para igual número de clientes , em seguida, respondem aos usuários brochura , e usuários respondem a brochura , e . Então o significado éUMA B uma UMA b B b > a
Não importa quantos usuários receberam suas brochuras, quantos responderam.
fonte