Eu tenho três grupos de dados, cada um com uma distribuição binomial (ou seja, cada grupo tem elementos que são sucesso ou fracasso). Não tenho uma probabilidade prevista de sucesso, mas só posso confiar na taxa de sucesso de cada um como uma aproximação para a verdadeira taxa de sucesso. Eu só encontrei essa pergunta , que está próxima, mas não parece exatamente lidar com esse cenário.
Para simplificar o teste, digamos que eu tenho 2 grupos (3 podem ser estendidos a partir deste caso base).
- grupo 1: = 2455
- Ensaios do grupo 2: = 2730
- Sucesso no grupo 1: = 1556
- Sucesso no grupo 2: = 1671
Não tenho uma probabilidade esperada de sucesso, apenas o que sei das amostras. Portanto, minha taxa de sucesso implícita para os dois grupos é:
- Taxa de sucesso do grupo 1: = 1556/2455 = 63,4%
- Taxa de sucesso do grupo 2: = 1671/2730 = 61,2%
A taxa de sucesso de cada amostra é bastante próxima. No entanto, meus tamanhos de amostra também são bastante grandes. Se eu verificar o CDF da distribuição binomial para ver quão diferente ela é da primeira (onde estou assumindo que a primeira é o teste nulo), recebo uma probabilidade muito pequena de que a segunda seja alcançada.
No Excel:
1-BINOM.DIST (1556,2455,61,2%, VERDADEIRO) = 0,012
No entanto, isso não leva em consideração nenhuma variação do primeiro resultado, apenas assume que o primeiro resultado é a probabilidade do teste.
Existe uma maneira melhor de testar se essas duas amostras de dados são realmente estatisticamente diferentes uma da outra?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Respostas:
A solução é um simples google away: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing
Então, você gostaria de testar a seguinte hipótese nula contra a alternativa dada
H A : p 1 ≠ p 2H0 0: p1 1= p2 versusHUMA: p1 1≠ p2
Então você só precisa calcular a estatística de teste que é
onde .p^= n1 1p^1 1+ n2p^2n1 1+ n2
Então, agora, em seu problema, , , e p 2=0,612n1=2455n2=2,730.p^1 1= 0,634 p^2= 0,612 n1 1= 2455 n2= 2730.
Depois de calcular a estatística de teste, você só precisa calcular o valor da região crítica correspondente para comparar sua estatística de teste também. Por exemplo, se você estiver testando essa hipótese no nível de confiança de 95%, precisará comparar sua estatística de teste com o valor da região crítica de (para este teste bicaudal).zα / 2= 1,96
Agora, se , você poderá rejeitar a hipótese nula, caso contrário, você deve falhar em rejeitar a hipótese nula.z> zα / 2
Bem, essa solução funciona para o caso quando você está comparando dois grupos, mas não generaliza para o caso em que você deseja comparar três grupos.
No entanto, você poderia usar um teste do qui-quadrado para testar se todos os três grupos têm proporções iguais, conforme sugerido por @Eric em seu comentário acima: "Esta pergunta ajuda? Stats.stackexchange.com/questions/25299/… - Eric"
fonte
Em R a resposta é calculada como:
fonte
Apenas um resumo:
As respostas de Dan e Abaumann sugerem testes sob um modelo binomial em que a hipótese nula é um modelo binomial unificado com sua média estimada a partir dos dados empíricos. Suas respostas estão corretas na teoria, mas precisam de aproximação usando a distribuição normal, pois a distribuição da estatística de teste não segue exatamente a distribuição Normal. Portanto, é correto apenas para um tamanho de amostra grande.
Mas a resposta de David está indicando um teste não paramétrico usando o teste de Fisher. As informações estão aqui: https://en.wikipedia.org/wiki/Fisher%27s_exact_test E pode ser aplicada a amostras pequenas, mas difícil de calcular para amostras grandes.
Qual teste usar e quanto você confia no seu valor-p é um mistério. Mas sempre há vieses em qualquer teste para escolher.
fonte
fonte
Em Python, statsmodels tem uma função chamada
proportions_ztest
. Aqui está um exemplo de seu uso:Isso imprime:
fonte
Post original: a resposta de Dan está realmente incorreta, para não ofender ninguém. Um teste z é usado apenas se seus dados seguirem uma distribuição normal padrão. Nesse caso, seus dados seguem uma distribuição binomial; portanto, use um teste qui-quadrado se sua amostra for grande ou teste de fisher se sua amostra for pequena.
Edit: Meu erro, desculpas a @ Dan. Um teste z é válido aqui se suas variáveis forem independentes. Se essa suposição não for atendida ou desconhecida, um teste z pode ser inválido.
fonte