A inicialização é apropriada para esses dados contínuos?

11

Eu sou um novato completo :)

Estou fazendo um estudo com uma amostra de 10.000 de uma população de cerca de 745.000. Cada amostra representa uma "similaridade percentual". A grande maioria das amostras está em torno de 97% a 98%, mas algumas estão entre 60% e 90%, ou seja, a distribuição é fortemente inclinada negativamente. Cerca de 0,6% dos resultados são 0%, mas estes serão tratados separadamente da amostra.

A média de todas as 10.000 amostras é de 97,7% e, no Excel, o StdDev é 3,20. Entendo que o StdDev não é realmente aplicável aqui porque os resultados não são normalmente distribuídos (e porque o +3,20 o colocaria acima de 100%!).

Minhas perguntas são:

  1. A inicialização (um novo conceito para mim) é apropriada?
  2. Estou inicializando corretamente :)
  3. O que é um tamanho de amostra suficiente?

O que estou fazendo é reamostrar (com substituição) meus 10.000 resultados e calcular uma nova média. Faço isso alguns milhares de vezes e armazeno cada média em uma matriz. Eu então calculo a "média das médias" e este é o meu resultado estatístico. Para calcular o IC de 99%, escolhi o valor de 0,5% e o valor de 99,5%, e isso produz uma faixa muito estreita: 97,4% - 98,0%. Esse resultado é válido ou estou fazendo algo errado?

Quanto ao tamanho da amostra, estou amostrando apenas cerca de 1,3% da população - não tenho idéia se isso é "suficiente". Como sei se minha amostra é representativa da população? Idealmente, eu gostaria de ter 99% de confiança de uma média de +/- 0,50% pontos percentuais (ou seja, 97,2% - 98,2%).

Agradecemos antecipadamente por todas as dicas!

Glenn W
fonte

Respostas:

19

O desvio padrão é tão aplicável aqui como em qualquer outro lugar: fornece informações úteis sobre a dispersão dos dados. Em particular, o sd dividido pela raiz quadrada do tamanho da amostra é um erro padrão: estima a dispersão da distribuição amostral da média. Vamos calcular:

3.2%/10000=0.032%=0.00032.

É pequeno - muito menor que a precisão você procura.±0.50%

Embora os dados não sejam normalmente distribuídos, a média da amostra é extremamente próxima de Normalmente distribuída porque o tamanho da amostra é muito grande. Aqui, por exemplo, está um histograma de uma amostra com as mesmas características que a sua e, à direita, o histograma da média de mil amostras adicionais da mesma população.

figura 1

Parece muito próximo do normal, não é?

Portanto, embora pareça que você está inicializando corretamente, não é necessário: um intervalo de confiança simétrico de para a média é obtido, como sempre, multiplicando o erro padrão por um percentil apropriado da distribuição normal padrão (para wit, ) e movendo-se que a distância de cada lado da média. No seu caso, , portanto o intervalo de confiança de é100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

Um tamanho de amostra suficiente pode ser encontrado invertendo esse relacionamento para resolver o tamanho da amostra. Aqui nos diz que você precisa de um tamanho de amostra em torno de

(3.2%/(0.5%/Z1α/200))2272.

Isso é pequeno o suficiente para que possamos verificar novamente a conclusão de que a distribuição amostral da média é Normal. Tirei uma amostra de da minha população e iniciei sua média (para iterações):2729999

Figura 2

Com certeza, parece normal. De fato, o intervalo de confiança de inicialização é quase idêntico ao IC da teoria normal de .( 97,19 % , 98,24 % )(97.16%,98.21%)(97.19%,98.24%)

Como esses exemplos mostram, o tamanho absoluto da amostra determina a precisão das estimativas, e não a proporção do tamanho da população. (Um exemplo extremo, porém intuitivo, é que uma única gota de água do mar pode fornecer uma estimativa precisa da concentração de sal no oceano, mesmo que essa gota seja uma fração muito pequena de toda a água do mar.) Para os fins declarados, obtenha uma amostra de (que exige mais de vezes mais trabalho do que uma amostra de ) é um exagero.36 2721000036272


Rcódigo para executar essas análises e plotar esses gráficos a seguir. Amostra de uma população com distribuição Beta com média de e DP de .0,0320.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))
whuber
fonte
2
Eu sei que este post é bastante antigo, mas é extremamente útil. Obrigado por compartilhar seu conhecimento.
RDizzl3