Existe uma referência que legitima o uso do teste z não agrupado para comparar duas proporções?

8

O teste z para comparar duas proporções é z=p^1p^2Var(p^1p^2) . Geralmente é definido que

Var(p^1p^2)=p^(1p^)(1/n1+1/n2),

Onde

p^=n1p^1+n2p^2n1+n2.

Existe alguma referência escrita que me legitima a usar a variação não agrupada, ou seja,

Var(p^1p^2)=p^1(1p^1)n1+p^2(1p^2)n2?
vítreo
fonte

Respostas:

8

Há muita discussão sobre isso no site da AP .

Você pode usar qualquer estatística que desejar, desde que seja claro sobre o que faz e observe a distribuição nula apropriada para calcular valores-p ou limites.

Mas algumas estatísticas são melhores que outras; nesse caso, você procuraria (a) distribuição nula facilmente calculável e (b) poder para detectar diferenças.

Mas não sei por que você preferiria a variação não agrupada sobre a variação agrupada para o teste, embora possa ser preferido no cálculo de um intervalo de confiança para a diferença.

Karl
fonte
+1 Essa é uma boa discussão que você encontrou. No entanto, parece estar aquém de realmente abordar a questão, que é se, de alguma forma, a estatística combinada pode ser corrigida para fornecer o tamanho de teste desejado e - talvez - render maior poder. Para resolver esse problema, forneci uma resposta separada.
whuber
Seu link não vai para uma discussão; vai para uma página com o ponto de vista de Charles Peltier. Não sei por que essa é a resposta selecionada, pois não responde nada para mim. Use qualquer estatística que não seja suficientemente concreta.
Jarad 27/07/16
2
@ Jarad Uma definição da palavra "discussão" é "um tratamento detalhado de um tópico específico"; foi isso que eu quis dizer. A resposta selecionada é escolhida pela pessoa que faz a pergunta. Ao "usar a estatística que você deseja", eu estava me referindo à parte "... referência que me legitima ...".
Karl
9

A variação não agrupada tende a ser muito pequena. Isso ocorre porque, sob a hipótese nula, ainda haverá variação de chance nas duas proporções observadas, embora as probabilidades subjacentes sejam iguais. Essa variação de chance contribui para a variação combinada, mas não para a variação não combinada.

Como resultado, para a estatística não agrupada nem tem aproximadamente uma distribuição normal padrão. Por exemplo, quando e as probabilidades verdadeiras são , a variação de é apenas vez de . Ao usar tabelas da distribuição normal padrão, você obtém valores p incorretos: eles tendem a ser artificialmente pequenos, rejeitando com freqüência o nulo com muita frequência quando a evidência não está realmente lá.z n1=n21/2z1/21

No entanto, questiona-se se isso poderia ser corrigido. Pode. A questão torna-se se um valor corrigido de , com base em estimativas não agrupadas, poderia ter maior poder para detectar desvios da hipótese nula. Algumas simulações rápidas sugerem que esse não é o caso: o teste agrupado (comparado a um teste não agrupado devidamente ajustado) tem uma chance maior de rejeitar o nulo sempre que o nulo for falso. Portanto, não me incomodei em elaborar a fórmula para a correção não agrupada; parece inútil.z

Em resumo, o teste não agrupado está errado, mas com uma correção apropriada, pode ser tornado legítimo. No entanto, parece ser inferior ao teste combinado.

whuber
fonte
Você diz "Por exemplo, quando e as probabilidades verdadeiras são 1/2, a variação de z é apenas 1/2 em vez de 1." Mas se a variação não agrupada for muito pequena, a variação de z deve ser muito grande e eu acho que seria apenas um pouco grande demais. n1=n2
Karl
Perdoe-me, mas não consigo seguir o seu exemplo. Por que a variação de é 1? Quais valores você está assumindo para e ? zp^1p^2
glassy
@glassy tem (assintoticamente) a variação da unidade por construção : a diferença foi padronizada dividindo-a pela variação estimada. zp1^p1^
whuber
Eu não quero incomodá-lo, mas realmente não entendo por que, se tem variação de unidade por construção, você declara que sua variação pode ser . Parece-me que sua variação é igual a em um caso e no outro. Desculpe, eu não entendo como essas quantidades têm uma proporção de 2: 1. De fato, no caso eles são os mesmos. z1/2p^(1p^)2np^1(1p^1)n+p^2(1p^2)np^1=p^2
glassy
Eu não concordo nada. Por que não dizer também que a construção do intervalo de confiança para a diferença entre duas proporções contradiz a distribuição normal? De fato, primeiro: em qualquer caso, não pode ter a distribuição , porque não é uma média (ou soma ou combinação linear) de variáveis ​​aleatórias normais. Pelo contrário, converge diretamente para a distribuição normal quando diverge (ou e , se você preferir). Segundo: os estimadores de variância agrupados e não agrupados são corretos e consistentes. ztnn1n2
Vítreo