Qual teste usar para comparar proporções entre três grupos?

8

Estamos testando uma campanha de marketing por email. Em nosso teste inicial, enviamos dois tipos de email diferentes e tivemos um terceiro grupo de controle que não recebeu um email. Agora estamos recuperando "resultados" como proporção de usuários que retornaram ao nosso aplicativo. Aqui estão os resultados:

Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%

Parece que o Grupo A pode realmente ser melhor que B e C, mas qual é o teste adequado para mostrar isso?

thecity2
fonte
2
Lembre-se de que o desvio padrão da proporção em um experimento binomial envolvendo resultados independentes com probabilidade de sucesso é . A inserção das estimativas de fornece erros padrão de %, % e %, respectivamente. (Estes valores podem ser facilmente estimado apenas olhando para os dados:. É necessário nenhum computador) Porque a diferença % - % = 1,44 % é igual a quase dez de qualquer desses erros padrão, o resultado é surpreendentemente óbvio que A tem uma taxa de retorno maior que B ou C e nenhum teste formal é necessário.p npp(1p)/np0.180.150.095.53max(4.09,3.82)1.44
whuber
@whuber Apenas uma pergunta rápida de acompanhamento. Nesse caso, a aproximação normal pode ser feita, mas e se os% 's fossem ainda menores, digamos <1%. Que teste faria sentido nesse caso?
thecity2
1
Boa pergunta. O que importa não são as porcentagens, mas a contagem real. Não se preocupe até que essas contagens (ou seus complementos - os números não recebidos) estejam em torno de 30 ou menos (dependendo de quão claros sejam os resultados, às vezes até contagens de 5 podem ser aceitáveis). Quando porcentagens e contagens são baixas, a aproximação de Poisson é ótima e você deve considerar a regressão logística, como recomenda a @gung. Essa é uma boa abordagem geral também.
whuber

Respostas:

2

Em uma tabela como essa, você pode particionar a estatística G produzida por um teste G, em vez de calcular os ORs ou executar uma regressão logística. Embora você tenha que decidir como particioná-lo. Aqui, a estatística G, que é semelhante ao X ^ 2 de Pearson e também segue uma distribuição X ^ 2, é:

G = 2 * soma (OBS * ln (OBS / EXP)).

Você primeiro calcula isso para a tabela geral, neste caso: G = 76,42, em 2 df, o que é altamente significativo (p <0,0001). Ou seja, a taxa de retorno depende do grupo (A, B ou C).

Então, como você tem 2 df, é possível executar dois testes G menores, de 1 df (2x2). Depois de executar o primeiro, no entanto, você deve recolher as linhas dos dois níveis usados ​​no primeiro teste e, em seguida, usar esses valores para testá-los no terceiro nível. Aqui, digamos que você teste B contra C primeiro.

Obs   Rec    Ret    Total
B   17530    717    18247
C   42408   1618    44026

Exp     Rec    Ret  Total
B   17562.8  684.2  18247
C   42375.2 1650.8  44026

Isso produz um G-stat de 2,29 em 1 df, o que não é significativo (p = 0,1300). Em seguida, faça uma nova tabela, combinando as linhas B e C. Agora teste A contra B + C.

Obs   Rec    Ret    Total
A   16895    934    17829
B+C 59938   2335    62273

Exp     Rec    Ret  Total
A   17101.4  727.6  17829
B+C 59731.6 2541.4  62273

Isso produz um G-stat de 74,13, em 1 df, o que também é altamente significativo (p <0,0001).

Você pode verificar seu trabalho adicionando as duas estatísticas de teste menores, que devem ser iguais à estatística de teste maior. Faz: 2,29 + 74,13 = 76,42

A história aqui é que seus grupos B e C não são significativamente diferentes, mas esse grupo A tem uma taxa de retorno mais alta do que B e C combinados.

Espero que ajude!

Você também pode ter particionado o G-stat de maneira diferente comparando A a B primeiro, depois C com A + B, ou comparando A com C, depois B com A + C. Além disso, você pode expandir isso para 4 ou mais grupos, mas após cada teste, você deve recolher as duas linhas que você acabou de testar, com um número máximo de testes igual ao df na tabela original. Existem outras maneiras de particionar com tabelas mais complicadas. O livro de Agresti, "Análise de dados categóricos", deve conter os detalhes. Especificamente, seu capítulo sobre inferência para tabelas de contingência bidirecional.

jww
fonte
1

Simplesmente calcularia as razões de chances (ou risco) entre o grupo A e B, entre B e C e entre A e C e ver se elas estatisticamente diferentes. Não vejo uma razão para fazer um teste de proporções "omnibus" neste caso, pois você tem apenas três grupos. Três testes de qui-quadrado também podem funcionar.

Como alguns dos indivíduos destacaram nos comentários abaixo, a regressão logística com contrastes planejados também funcionaria bem.

Behacad
fonte
3
Existe um problema potencial de múltiplas comparações aqui. Por que não fazer apenas uma regressão logística com 2 códigos fictícios para B & C?
gung - Restabelece Monica
1
Sim, claro, mas a questão de várias comparações é bastante mínima quando você tem três comparações.
precisa saber é o seguinte
@gung faz alguns bons pontos. A regressão logística seria a abordagem mais simples - e se alguém fizesse uma abordagem de teste qui-quadrado, você quase definitivamente começaria com um teste abrangente (da tabela de contingência da tabela 3x2) antes de fazer comparações de dois grupos (embora isso corresponderia ao significado "geral" da logística ajuste modelo de regressão neste caso).
James Stanley
1
Usando essa sugestão (e Wikipedia), descobri que o IC de 95% para as chances de log de A / B e A / C não se sobrepunha a 0 e que a razão de chances de log para B / C se sobrepunha a 0. Isso significa que A é significativamente diferente de B & C?
thecity2
@ Behacad, você está certo que com apenas 3 comparações, vários problemas de comparações seriam menos intensos, mas eu ainda começaria com um modelo LR. Idealmente, isso seria acompanhado por comparações planejadas.
gung - Restabelece Monica