Erro padrão para a média de uma amostra de variáveis ​​aleatórias binomiais

44

Suponhamos que estou correndo uma experiência que pode ter 2 resultados, e estou assumindo que o subjacente "verdadeiro" distribuição dos resultados 2 é uma distribuição binomial com parâmetros n e p : Binomial(n,p) .

Eu posso calcular o erro padrão, SEX=σXn , a partir da forma da variância de Binomial(n,p):

σX2=npq
ondeq=1p. Então,σX=npq . Para o erro padrão, recebo:SEX=pq , mas eu já vi em algum lugar queSEX=pqn . O que eu fiz errado?
Frank
fonte
Este artigo é muito útil para entender o erro padrão dos pontos médios influential.com/Training/…
Sanghyun Lee
Pelo meu trabalho no Google, parece que o assunto intimamente relacionado à obtenção de intervalos de confiança para uma distribuição binomial é bastante matizado e complicado. Em particular, parece que os intervalos de confiança obtidos com esta fórmula, que seriam "Intervalos de Wald" (consulte en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), são pouco comportados e devem ser evitados. Consulte jstor.org/stable/2676784?seq=1#metadata_info_tab_contents para obter mais informações.
aquirdturtle

Respostas:

58

Parece que você está usando duas vezes de duas maneiras diferentes - como o tamanho da amostra e o número de ensaios de bernoulli que compõem a variável aleatória Binomial; para eliminar qualquer ambiguidade, vou usar k para me referir a este último.nk

Se tiver amostras independentes de um B i n o m i a l ( k , p ) de distribuição, a variância da sua média da amostra énBinomial(k,p)

var(1ni=1nXi)=1n2i=1nvar(Xi)=nvar(Xi)n2=var(Xi)n=kpqn

onde e ¯ X é a mesma média. Isto segue desdeq=1pX¯

(1) ,var(cX)=c2var(X) para qualquer variável aleatória, e qualquer constante c .Xc

(2) a variância de uma soma de variáveis ​​aleatórias independentes é igual à soma das variâncias .

O erro padrão de é a raiz quadrada da variância: X¯ . Assim sendo,kpqn

  • Quando , você obtém a fórmula que indicou: k=npq

  • k=1pqn

Macro
fonte
3
Xvar(X)=pqXnpvar(X)=npq
2
Obrigado! Você levantou minha confusão. Desculpe que era tão elementar, eu ainda estou aprendendo :-)
Frank
6
222
1
@ MichaelChernick, esclareci os detalhes que você mencionou. Com base na descrição do problema, imaginei que Frank sabia desses fatos, mas você está certo de que seria mais educativo para futuros leitores incluir os detalhes.
macro
2
Sol Lago - Neste caso, k = 1. Se você jogou uma moeda 50 vezes e calculou o número de sucessos e repetiu o experimento 50 vezes, então k = n = 50. Uma tampa de um resultado de moedas em um 1 ou 0. É um rv Bernoulli
B_Miner
9

É fácil confundir duas distribuições binomiais:

  • distribuição do número de sucessos
  • distribuição da proporção de sucessos

npq é o número de sucessos, enquanto npq / n = pq é a razão de sucessos. Isso resulta em diferentes fórmulas de erro padrão.

Vlad
fonte
6

Podemos analisar isso da seguinte maneira:

nYY=i=1nXiXi

XiY

YY

pqpq=1p

Agora, se olharmos para a variância de , . Mas, para todas as experiências individuais de Bernoulli, . Uma vez que existem jogadas ou ensaios de Bernoulli no experimento, . Isso implica que tem variação .YV(Y)=V(Xi)=V(Xi)V(Xi)=pqnV(Y)=V(Xi)=npqYnpq

Agora, a proporção da amostra é dada por , que fornece a 'proporção de sucesso ou cabeças'. Aqui, é uma constante, pois planejamos fazer o mesmo número de lançamentos de moedas para todos os experimentos da população.p^=Ynn

Portanto, .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Portanto, o erro padrão para (uma estatística de amostra) ép^pq/n

Tarashankar
fonte
Você pode usar a tipografia Latex colocando dólares em torno de sua matemática, por exemplo, $x$dá . x
Silverfish
Note que o passo realmente merece alguma justificativa! V(Xi)=V(Xi)
precisa
Há erro de digitação na última dedução, V (S / n) = (1 / n ^ 2) * V (S) = (1 / n ^ 2) * npq = pq / n deve ser a dedução correta.
Tarashankar
Desculpas, apresentei isso ao fazer a composição. Espero que seja resolvido agora.
Silverfish
1
Isso é verdade se o não estiver correlacionado - para justificar isso, usamos o fato de que os testes são considerados independentes. Xi
Silverfish
2

Eu acho que também há alguma confusão no post inicial entre erro padrão e desvio padrão. O desvio padrão é o sqrt da variação de uma distribuição; erro padrão é o desvio padrão da média estimada de uma amostra dessa distribuição, ou seja, a dispersão das médias que você observaria se fizesse essa amostra infinitamente várias vezes. O primeiro é uma propriedade intrínseca da distribuição; o último é uma medida da qualidade da sua estimativa de uma propriedade (a média) da distribuição. Quando você faz um experimento com os ensaios de N Bernouilli para estimar a probabilidade desconhecida de sucesso, a incerteza do valor estimado de p = k / N após ver k sucessos é um erro padrão da proporção estimada, sqrt (pq / N) em que q = 1 -p. A verdadeira distribuição é caracterizada por um parâmetro P, a verdadeira probabilidade de sucesso.

Stan
fonte