Existe uma referência que legitima o uso do teste z não agrupado para comparar duas proporções?

O teste z para comparar duas proporções é $\newcommand{\p}{\hat{p}}\newcommand{\v}{\mathrm{Var}} z=\frac{\p_1-\p_2}{\sqrt{\v(\p_1-\p_2)}}$ . Geralmente é definido que

V a r ({\hat{p}}_{1} - {\hat{p}}_{2}) = \hat{p} (1 - \hat{p}) (1 / n_{1} + 1 / n_{2}),

$\v(\p_1-\p_2)=\p(1-\hat{p})(1/n_1+1/n_2),$

Onde

\hat{p} = \frac{n_{1} {\hat{p}}_{1} + n_{2} {\hat{p}}_{2}}{n_{1} + n_{2}} .

$\p=\frac{n_1 \p_1+n_2 \p_2}{n_1+n_2}.$

Existe alguma referência escrita que me legitima a usar a variação não agrupada, ou seja,

V a r ({\hat{p}}_{1} - {\hat{p}}_{2}) = \frac{{\hat{p}}_{1} (1 - {\hat{p}}_{1})}{n_{1}} + \frac{{\hat{p}}_{2} (1 - {\hat{p}}_{2})}{n_{2}} ?

$\v(\p_1-\p_2)=\frac{\p_1(1-\p_1)}{n_1}+\frac{\p_2(1-\p_2)}{n_2}?$

variance proportion hypothesis-testing vítreo
fonte

Respostas:

Há muita discussão sobre isso no site da AP .

Você pode usar qualquer estatística que desejar, desde que seja claro sobre o que faz e observe a distribuição nula apropriada para calcular valores-p ou limites.

Mas algumas estatísticas são melhores que outras; nesse caso, você procuraria (a) distribuição nula facilmente calculável e (b) poder para detectar diferenças.

Mas não sei por que você preferiria a variação não agrupada sobre a variação agrupada para o teste, embora possa ser preferido no cálculo de um intervalo de confiança para a diferença.

Karl
fonte

+1 Essa é uma boa discussão que você encontrou. No entanto, parece estar aquém de realmente abordar a questão, que é se, de alguma forma, a estatística combinada pode ser corrigida para fornecer o tamanho de teste desejado e - talvez - render maior poder. Para resolver esse problema, forneci uma resposta separada.

whuber

Seu link não vai para uma discussão; vai para uma página com o ponto de vista de Charles Peltier. Não sei por que essa é a resposta selecionada, pois não responde nada para mim. Use qualquer estatística que não seja suficientemente concreta.

Jarad 27/07/16

@ Jarad Uma definição da palavra "discussão" é "um tratamento detalhado de um tópico específico"; foi isso que eu quis dizer. A resposta selecionada é escolhida pela pessoa que faz a pergunta. Ao "usar a estatística que você deseja", eu estava me referindo à parte "... referência que me legitima ...".

Karl

A variação não agrupada tende a ser muito pequena. Isso ocorre porque, sob a hipótese nula, ainda haverá variação de chance nas duas proporções observadas, embora as probabilidades subjacentes sejam iguais. Essa variação de chance contribui para a variação combinada, mas não para a variação não combinada.

Como resultado, para a estatística não agrupada nem tem aproximadamente uma distribuição normal padrão. Por exemplo, quando e as probabilidades verdadeiras são , a variação de é apenas vez de . Ao usar tabelas da distribuição normal padrão, você obtém valores p incorretos: eles tendem a ser artificialmente pequenos, rejeitando com freqüência o nulo com muita frequência quando a evidência não está realmente lá. $z$ $n_1 = n_2$ $1/2$ $z$ $1/2$ $1$

No entanto, questiona-se se isso poderia ser corrigido. Pode. A questão torna-se se um valor corrigido de , com base em estimativas não agrupadas, poderia ter maior poder para detectar desvios da hipótese nula. Algumas simulações rápidas sugerem que esse não é o caso: o teste agrupado (comparado a um teste não agrupado devidamente ajustado) tem uma chance maior de rejeitar o nulo sempre que o nulo for falso. Portanto, não me incomodei em elaborar a fórmula para a correção não agrupada; parece inútil. $z$

Em resumo, o teste não agrupado está errado, mas com uma correção apropriada, pode ser tornado legítimo. No entanto, parece ser inferior ao teste combinado.

whuber
fonte

Você diz "Por exemplo, quando e as probabilidades verdadeiras são 1/2, a variação de z é apenas 1/2 em vez de 1." Mas se a variação não agrupada for muito pequena, a variação de z deve ser muito grande e eu acho que seria apenas um pouco grande demais.

n_{1} = n_{2}

$n_1=n_2$

Karl

Perdoe-me, mas não consigo seguir o seu exemplo. Por que a variação de é 1? Quais valores você está assumindo para e ?

z

$z$

{\hat{p}}_{1}

$\hat{p}_1$

{\hat{p}}_{2}

$\hat{p}_2$

glassy

@glassy tem (assintoticamente) a variação da unidade por construção : a diferença foi padronizada dividindo-a pela variação estimada.

z

$z$

\hat{p_{1}} - \hat{p_{1}}

$\hat{p_1}-\hat{p_1}$

whuber

Eu não quero incomodá-lo, mas realmente não entendo por que, se tem variação de unidade por construção, você declara que sua variação pode ser . Parece-me que sua variação é igual a em um caso e no outro. Desculpe, eu não entendo como essas quantidades têm uma proporção de 2: 1. De fato, no caso eles são os mesmos.

z

$z$

1 / 2

$1/2$

\hat{p} (1 - \hat{p}) \frac{2}{n}

$\hat{p}(1-\hat{p})\frac{2}{n}$

\frac{{\hat{p}}_{1} (1 - {\hat{p}}_{1})}{n} + \frac{{\hat{p}}_{2} (1 - {\hat{p}}_{2})}{n}

$\frac{\hat{p}_1(1-\hat{p}_1)}{n}+\frac{\hat{p}_2(1-\hat{p}_2)}{n}$

{\hat{p}}_{1} = {\hat{p}}_{2}

$\hat{p}_1=\hat{p}_2$

glassy

Eu não concordo nada. Por que não dizer também que a construção do intervalo de confiança para a diferença entre duas proporções contradiz a distribuição normal? De fato, primeiro: em qualquer caso, não pode ter a distribuição , porque não é uma média (ou soma ou combinação linear) de variáveis aleatórias normais. Pelo contrário, converge diretamente para a distribuição normal quando diverge (ou e , se você preferir). Segundo: os estimadores de variância agrupados e não agrupados são corretos e consistentes.

z

$z$

t

$t$

n

$n$

n_{1}

$n_1$

n_{2}

$n_2$

Vítreo