A variação da proporção da amostra diminui com n, mas a contagem aumenta com n - por quê?

9

Eu tenho um bloqueio intuitivo com isso. Para um problema binomial, o desvio padrão de uma contagem é . Por outro lado, o desvio padrão da proporção da amostra diminui com o aumento de n e é \ sqrt {\ frac {p (1-p)} {n}} . Eu posso fazer a divisão por n, mas não sinto por que os desvios padrão se movem em direções opostas. nnp(1p)n np(1-p)nn

user39707
fonte
1
Duas coisas: (a) proporção = 1n .contagem e (b) SD(cX)=c.SD(X) . Claramente c=1n aqui e 1nn=1n .
Glen_b -Reinstala Monica
1
Sim, esta é a questão - eu posso ver a matemática e fazer a divisão por n, mas é o aspecto intuitivo que é estranho. Se perguntado como obter uma estimativa mais precisa de um parâmetro, diria que pegue uma amostra maior. Isso me dá uma estimativa melhor para a proporção (OK), mas um spread mais amplo para contagens e quanto mais contagens eu adicionar, mais fraca a conclusão que posso tirar.
user39707
Ao trabalhar com contagens, para qual quantidade populacional você está calculando um desvio / intervalo padrão?
Glen_b -Reinstala Monica
Um exemplo (Estudo do Coração de Helsinque) de um livro (Moore & Mccabe) é onde estou me soltando. Probabilidade (ataque cardíaco) = 0,04 & n = 2000. SD para o número esperado de ataques cardíacos funciona como 8,76. Bem. Houve 84 ataques cardíacos no grupo placebo e 56 no grupo tratado. Z = 3,19 e improvável por acaso. Se houvesse 10.000 no estudo, o DP (contagens) seria ~ 20 e a diferença em 2 grupos não seria mais significativa. Mas como mais dados podem me dar menos discriminação?
user39707
1
Os dois grupos têm o mesmo tamanho? O número de ataques cardíacos permanece o mesmo quando a amostra aumenta.
Dimitriy V. Masterov

Respostas:

7

Muito a grosso modo, imagine que estamos jogando uma moeda justa . Sucesso é definido como chefes. Se jogarmos a moeda uma vez , você contará sucesso ou sucessos. Ambos têm uma probabilidade positiva igual de acontecer . Agora imagine que jogamos a moeda vezes ( ). Agora você ainda pode obter e sucessos (embora ambos sejam menos prováveis), mas também pode obter a (o que é mais provável). Se a variação mede a extensão de um conjunto de números, é possível ver com lançamentos que o spread é maior do que com1 0 ( 1 / 2 ) 10 n = 10 0 1 2 10 10 1 n(n=1)10 0(1/2)10n=100 01210101atirar ou julgamento. Isso explica por que a variação do número de sucessos aumenta com .n

Com a proporção (número de sucessos dividido pelo número de lançamentos), você está tentando aproximar o valor real de . À medida que você obtém mais informações com mais testes, sua incerteza sobre diminui e a variação diminui. Com um arremesso que vem à tona, você não sabe muito (apenas esse . Com lançamentos que acabam sendo cabeças, você tem certeza de que está próximo de um. p p 0 ) 10 pppp0 0)10p

Dimitriy V. Masterov
fonte
Voltei ao livro e parece que ainda não entendi muito bem. O comentário que fiz anteriormente sobre o estudo Helsinki coração resume onde parece um pouco paradoxal para mim agora
user39707
2

Vamos começar assumindo que o desvio padrão da distribuição binomial esteja correto (está). Esse é o desvio padrão da distribuição do número de sucessos de tentativas, dada a probabilidade constante de sucesso . Ligue para o número de sucessos, .npX

Então , que é o que você tem (desvio padrão ao quadrado).Vumar(X)=np(1-p)

Como uma proporção é o número de sucessos em relação ao número de tentativas, temos:

Vumar(Xn)=Vumar(X)n2=np(1-p)n2=p(1-p)n .

E assim o desvio padrão é obviamente .p(1-p)n

Em um caso, você está vendo contagens, no outro, em contagens divididas pelo tamanho da amostra.

Intuitivamente, você pode imaginar que a contagem do número de sucessos é muito maior ( ) do que uma proporção ( ). À medida que aumenta, pode assumir muitos valores inteiros diferentes (e maiores) e tem mais variabilidade; , por outro lado, é restrito entre 0 e 1. Portanto, tem mais variabilidade.X=0 0,1,2,,n0 0p1nXpX

Minador
fonte
como você conseguiu ? Por que o denominador ? n2Vumar(Xn)=Vumar(X)n2n2
user490895 17/04
V a r ( c X 2 ( E ( X 2 ) - [ E ( X ) ] 2 ) = c 2 V a r ( X ) c = 1 / nVar(X)=E(X2)[E(X)]2 então . Aqui, . Fiz um erro de digitação na terceira igualdade da resposta que vou corrigir agora. = c 2 E ( X 2 ) - c 2 E ( X ) 2 cVar(cX)=E(c2X2)[cE(X)]2 =c2E(X2)-c2E(X)2 =c2(E(X2)-[E(X)]2) =c2Vumar(X)c=1/n
Underminer
0

OK! Vou facilitar muito.

Ao usar o padrão e a variação USUALLY, você está olhando para trás, tentando ver o que está acontecendo e projetando o futuro. quando você olha para trás, mais testes geralmente ajudam a obter MAIS informações. Mais e mais tentativas ajudam a diminuir o que aconteceu. e agora você gira melhor em torno da média. Std e var apenas giram em torno da média, para que você se aproxime cada vez mais do que acontecerá.

Binomial é diferente! já sabemos o que se passa, sabemos a probabilidade. então, olhar para trás não é tão útil porque, bem, já sabemos a probabilidade. Mais e mais tentativas não nos ajudam a entender cada vez melhor como as coisas giram em torno da média, apenas nos fornece uma distribuição cada vez maior. aumentar os testes realmente só dá mais espaço para a variação.

Imagine dois cenários: um que você deseja saber como todos são altos em uma sala. mais medições = mais perto da altura média real da sala, você é grato por cada nova medição.

segundo você tem uma moeda. você já sabe qual é a média. seus 50/50, quero dizer que você está pronto. então, vamos fingir que você começa a inverter, bem, cada novo lançamento é apenas mais espaço para erro. você vira 10 vezes e recebe todas as 10 cabeças, diz ao seu amigo, que diabos! onde estavam as chances disso, isso é tão idiota! bem, se você apenas o revelasse uma vez, teria apenas uma chance de obter valores extremos loucos. mais flips não dão mais informações, apenas dão mais espaço para resultados malucos.

0 matemática e 0 fórmulas, espero que ajude.

rios zack
fonte
0

Se você está procurando alguma intuição sobre esse resultado, pergunte a si mesmo qual das seguintes opções é mais variável:

  • ... a proporção de mulheres em uma casa, ou a proporção de mulheres em um país inteiro?

  • ... o número de mulheres em uma casa, ou o número de mulheres em um país inteiro?

Ben - Restabelecer Monica
fonte