Antecedentes e Terminologia
Para ser perfeitamente claro o que estamos discutindo, vamos estabelecer alguns conceitos e terminologia. Um bom modelo para proporções é a urna binária: contém bolas coloridas de prata ("sucesso") ou fúcsia ("falha"). A proporção de bolas de prata na urna é (mas essa não é a "proporção" sobre a qual falaremos). p
Essa urna fornece uma maneira de modelar um julgamento de Bernoulli . Para obter uma realização, misture bem as bolas e desenhe cegamente, observando sua cor. Para obter realizações adicionais, primeiro reconstitua a caixa retornando a bola sacada e repita o procedimento um número predeterminado de vezes. A sequência de realizações podem ser resumidos pela contagem do seu sucesso, . É uma variável aleatória cujas propriedades são completamente determinadas por e . A distribuição de é chamada de distribuição binomial . A proporção (experimental ou "amostra") é a razãoX n p X ( n , p ) X / nnXnpX(n,p)X/n.
Esses números são gráficos de barras de distribuições de probabilidade para várias proporções binomiais . O mais notável é um padrão consistente, independentemente de , no qual as distribuições se tornam mais estreitas (e as barras correspondentemente mais altas) à medida que se move de em diante.n p 1 / 2X/nnp1/2
O desvio padrão de é o erro padrão de proporção mencionado na pergunta. Para qualquer dado , essa quantidade pode depender apenas da . Vamos chamar de . Ao mudar os papéis das bolas - chame os de prata de "fracassos" e os de fúcsia de "sucessos" - é fácil ver que . Assim, a situação em que - ou seja, deve ser especial. A questão diz respeito à forma como varia conforme se afasta de direção a um valor mais extremo, comon p si só ( p ) SE ( p ) = si ( 1 - P ) p = 1 - p p = 1 / 2 SE ( p ) p 1 / 2 0X/nnpse(p)se(p)=se(1−p)p=1−pp=1/2se(p)p1/20.
Conhecimento x compreensão
Como todos foram mostrados figuras como essas no início de sua educação, todos "conhecem" as larguras das parcelas - que são medidas por devem diminuir à medida que se afasta de . Mas esse conhecimento é realmente apenas experiência, enquanto a pergunta busca um entendimento mais profundo. Esse entendimento está disponível em uma análise cuidadosa das distribuições binomiais, como Abraham de Moivre, realizada há cerca de 300 anos. (Eles eram parecidos em espírito aos que apresentei em uma discussão do Teorema do Limite Central .) Penso, porém, que algumas considerações relativamente simples podem ser suficientes para mostrar que as larguras devem ser mais largas perto de .se(p)p1/2p=1/2
Uma análise intuitiva simples
É claro que devemos esperar que a proporção de sucessos no experimento seja próxima de . O erro padrão diz respeito a que distância dessa expectativa podemos razoavelmente supor que o resultado real estará. Supondo, sem nenhuma perda de generalidade, que esteja entre e , o que seria necessário para aumentar de ? Normalmente, cerca de das bolas desenhadas em um experimento eram de prata e (portanto) cerca de eram fúcsia. Para obter mais bolas de prata, algumas dessaspX/np01/2X/nppn(1−p)npnos resultados fúcsia tinham que ter diferido. Qual a probabilidade de que o acaso funcione dessa maneira? A resposta óbvia é que, quando é pequeno, nunca é muito provável que desenhemos uma bola de prata. Assim, nossas chances de desenhar bolas de prata em vez de fúcsia são sempre baixas. Podemos razoavelmente esperar que, por pura sorte, uma proporção dos resultados fúcsia possa ter sido diferente, mas parece improvável que muito mais do que isso tenha mudado. Assim, é plausível que não varie muito mais do que . Equivalentemente, não variaria muito mais do que .ppXp×(1−p)nX/np(1−p)n/n=p(1−p)
O desenlace
Assim, a combinação mágica aparece. p(1−p) Isso praticamente resolve a questão: obviamente, essa quantidade atinge o pico em e diminui para zero em ou . Ele fornece uma justificativa intuitiva, mas quantitativa, para afirmações de que "um extremo é mais limitador que o outro" ou outros esforços para descrever o que sabemos.p=1/2p=0p=1
No entanto, não é exatamente o valor correto: ele apenas aponta o caminho, dizendo-nos o que quantidade deve importa para estimar a propagação de . Ignoramos o fato de que a sorte também tende a agir contra nós: assim como algumas das bolas fúcsia poderiam ser prateadas, algumas das bolas prateadas poderiam ser fúcsia. A contabilização rigorosa de todas as possibilidades pode ser complicada, mas o resultado é que, em vez de usar como um limite razoável de quanto poderia se desviar de sua expectativa , para dar conta de todos os resultados possíveis adequadamente , temos pegar a raiz quadradap(1−p)Xp(1−p)nXpn p(1−p)n−−−−−−−−√. (Para uma explicação mais cuidadosa do motivo, visite ( https://stats.stackexchange.com/a/3904 .) Dividindo por , aprendemos que variações aleatórias da proporção devem estar na ordem de que é o erro padrão de .nX/nX/np(1−p)n−−−−−−−−√/n=p(1−p)n−−−−−√,X/n
A distribuição binomial tende a ser aproximadamente simétrica (para grande , é aproximadamente normal ).n
Como a razão deve estar entre 0 e 1, a incerteza será restringida por esses limites. A menos que a proporção média esteja exatamente no meio, um desses limites será mais limitador que o outro.
Para que uma curva simétrica de campainha unimodal centralizada em se encaixe no intervalo da unidade, sua meia largura deve ser menor que .p min[p,1−p]
fonte