Qual é a precisão dos dados obtidos através de uma amostra aleatória?

Eu sou um novato em estatísticas, por isso, se eu fizer alguma suposição errada aqui, por favor me diga.

Há uma população Nde pessoas. (Por exemplo, Npode ser 1.000.000.) Algumas pessoas são ruivas. Pego uma amostra nde pessoas (digamos 10) e acho que jelas são ruivas.

O que posso dizer sobre a proporção geral de ruivos na população? Quero dizer, minha melhor aproximação é provavelmente j/n, mas qual seria o desvio padrão dessa aproximação?

A propósito, qual é o termo aceito para isso?

standard-deviation sample-size binomial standard-error Ram Rachum
fonte

Por que sempre escolhemos o gengibre? :)

Brandon Bertelsen

Respostas:

Você pode pensar nisso como um teste binomial - seus testes estão amostrando "ruiva" ou "não cabeça de leitura". Nesse caso, você pode criar um intervalo de confiança para a proporção da amostra ( ), conforme documentado na Wikipedia: $j/n$

Intervalo de confiança da proporção binomial

Um intervalo de confiança de 95% basicamente diz que, usando o mesmo algoritmo de amostragem, se você repetir isso 100 vezes, a proporção verdadeira estaria no intervalo indicado 95 vezes.

Atualização A propósito, acho que o termo que você está procurando pode ser um erro padrão, que é o desvio padrão das proporções amostradas. Nesse caso, é onde é sua proporção estimada. Observe que à medida que aumenta, o erro padrão diminui. $\sqrt{{p (1-p)} \over {n}}$ $p$ $n$

ars
fonte

@ars: Tudo está correto e bem afirmado. Mas uma coisa parece estar faltando: o desvio padrão da "melhor aproximação" j / n depende da proporção verdadeira de ruivos, não da estimativa. O problema, é claro, é que não sabemos a verdadeira proporção. Mas o fato é que o erro padrão não é realmente igual ao desvio padrão da aproximação, exceto quando a estimativa estiver exatamente correta. Eu sei que você não precisa lembrar dessa sutileza, nem a maioria dos leitores, mas é bastante relevante para a pergunta original.

whuber

@ whuber: Este esclarecimento me deixou um pouco confuso. Dado um e um , qual seria o erro padrão, descrito por e ? (Em contraste a estar dependente da verdadeira proporção de ruivos, que não podemos saber.)

j

$j$

n

$n$

j

$j$

n

$n$

Ram Rachum

@ cool-RR: ars está correto sobre o erro padrão. O ponto é que o erro padrão em si é uma estimativa de quão precisa a estatística j / n estima a proporção verdadeira. Por exemplo, suponha que 10% de todas as pessoas sejam ruivas. Então, em muitos casos, pode acontecer que j = 0 quando n = 10. Você obteria um SE de Sqrt (0 (1-0) / 10) = 0. Isso obviamente subestima a precisão real da sua estatística p = j / n = 0/10. A verdadeira precisão é Sqrt (0,10 (1-0,90) / n), mesmo que você não saiba disso!

whuber

Novamente: estou interessado no que posso saber, não no que não posso saber. Vamos dar o seu exemplo, onde e . A proporção mais provável de ruivas é de 0%, mas há boas chances de 2% ou 5% ou 10%. Então, minha pergunta é: Dado que e , qual é a função de distribuição de probabilidade da proporção de ruivos, a partir das informações que eu sei, não as informações que eu não sei?

j = 0

$j=0$

n = 10

$n=10$

j = 0

$j=0$

n = 10

$n=10$

Ram Rachum

@ cool-RR: para amostras pequenas, use o intervalo Agresti-Coull especificado no link da Wikipedia em intervalos de confiança. Com base em suas observações, você obterá um intervalo de 95% para estimativa. Então, o que você saberá, com base no que observou, é inerente à definição de um IC de 95%.

Ars8 #

se o tamanho da amostra não for uma fração tão pequena do tamanho da população como no seu exemplo, e se você fizer uma amostra sem substituição [Sw / oR], uma expressão melhor para o SE [estimado] será $n$ $N$

\hat{S E} = \sqrt{\frac{N - n}{N} \frac{\hat{p} \hat{q}}{n}},

$\hat{SE} = \sqrt{\frac{N - n}{N}\frac{\hat p \hat q}{n}},$

onde é a proporção estimada e . $\hat p$ $j/n$ $\hat q = 1- \hat p$

[o termo é chamado de CPF [correção finita da população]. $\frac{N-n}{N}$

Embora a observação de whuber seja tecnicamente correta, parece sugerir que nada pode ser feito para obter, digamos, um intervalo de confiança para a verdadeira proporção . se for grande o suficiente para tornar razoável uma aproximação normal [ , digamos], é improvável que se obtenha . Além disso, se o tamanho da amostra for grande o suficiente para que uma aproximação normal usando o verdadeiro seja razoável, usar também fornecerá uma aproximação razoável. $p$ $n$ $np > 10$ $j=0$ $SE$ $\hat{SE}$

[se seu é realmente pequeno e você usa Sw / oR, pode ser necessário usar a distribuição hipergeométrica exata para vez de uma aproximação normal. se você faz SwR, o tamanho de é irrelevante e você pode usar métodos binomiais exatos para obter um IC para .] $n$ $j$ $N$ $p$

de qualquer forma, uma vez que , sempre se pode ser conservador e usar no lugar de acima. se você fizer isso, é necessária uma amostra de para obter um EM estimado [margem de erro = 2 ] de .03 [independentemente do tamanho de !]. $p(1-p) \le 1/4$ $\frac{1}{2\sqrt{n}}$ $\sqrt{\frac{\hat p \hat q}{n}}$ $n = 1,111$ $\hat {SE}$ $\pm$ $N$

ronaf
fonte