Como a distribuição amostral dos meios amostrais se aproxima da média da população?

16

Estou tentando aprender estatística porque acho que ela é tão prevalente que me proíbe de aprender algumas coisas, se não entendi direito. Estou tendo problemas para entender essa noção de distribuição amostral dos meios amostrais. Não consigo entender como alguns livros e sites explicaram isso. Acho que tenho um entendimento, mas não tenho certeza se está correto. Abaixo está minha tentativa de entendê-lo.

Quando falamos de algum fenômeno assumindo uma distribuição normal, geralmente é (nem sempre) referente à população.

Queremos usar estatísticas inferenciais para prever algumas coisas sobre alguma população, mas não temos todos os dados. Utilizamos amostragem aleatória e cada amostra de tamanho n tem a mesma probabilidade de ser selecionada.

Então, coletamos muitas amostras, digamos 100 e, em seguida, a distribuição das médias dessas amostras será aproximadamente normal, de acordo com o teorema do limite central. A média das médias da amostra aproximará a média da população.

Agora, o que eu não entendo é que muitas vezes você vê "Uma amostra de 100 pessoas ..." Não precisaríamos de 10 ou 100 amostras de 100 pessoas para aproximar a população da média? Ou é o caso de podermos colher uma amostra grande o suficiente, digamos 1000 e depois dizer que a média se aproximará da média da população? OU coletamos uma amostra de 1000 pessoas e, em seguida, coletamos 100 amostras aleatórias de 100 pessoas em cada amostra das 1000 pessoas originais que pegamos e depois usamos isso como nossa aproximação?

Tomar uma amostra grande o suficiente para aproximar a média (quase) sempre funciona? A população precisa ser normal para que isso funcione?

fusão
fonte

Respostas:

9

Acho que você pode estar confundindo a distribuição esperada da amostra de uma média (que calcularíamos com base em uma única amostra) com o processo (geralmente hipotético) de simular o que aconteceria se amostrássemos repetidamente da mesma população várias vezes.

Para qualquer tamanho de amostra (mesmo n = 2), diríamos que a média da amostra (das duas pessoas) estima a média da população. Mas a precisão da estimativa - ou seja, quão bom foi o trabalho que fizemos para estimar a média da população com base em nossos dados de amostra, conforme refletido no erro padrão da média - será menor do que se tivéssemos 20 ou 200 pessoas em nossa amostra. Isso é relativamente intuitivo (amostras maiores fornecem melhor precisão de estimativa).

Em seguida, usaríamos o erro padrão para calcular um intervalo de confiança, que (neste caso) se baseia em torno da distribuição Normal (provavelmente usaríamos a distribuição t em pequenas amostras, pois o desvio padrão da população geralmente é subestimado em uma pequena amostra, levando a erros padrão excessivamente otimistas.)

Em resposta à sua última pergunta, não, nem sempre precisamos de uma população normalmente distribuída para aplicar esses métodos de estimativa - o teorema do limite central indica que a distribuição amostral de uma média (estimada, novamente, a partir de uma única amostra) tenderá a siga uma distribuição normal, mesmo quando a população subjacente tiver uma distribuição não normal. Isso geralmente é apropriado para tamanhos de amostra "maiores".

Dito isto, quando você tem uma população não-normal da qual está amostrando, a média pode não ser uma estatística resumida apropriada, mesmo que a distribuição amostral dessa média possa ser considerada confiável.

James Stanley
fonte
então, eu estou muito interessada em entender esse fundamento teórico de como algumas dessas coisas funcionam? A coisa realmente interessante aqui é o intervalo de confiança? Em outras palavras, se eu quisesse publicar um estudo de, digamos, a quantidade de horas que o adulto médio nos EUA dorme, e eu tomo uma amostra de 5.000 e meu intervalo de confiança é de 99,9%, a média fica entre 6,46 e 6,54, então posso ir adiante e publico meu estudo dizendo "com confiança" que a média de adultos nos EUA dorme 6,5 horas?
usar o seguinte comando
2
Onde você disse: " dizendo" com confiança "que a média de adultos nos EUA dorme 6,5 horas ". Bem, não, você pode ter certeza de que não são na verdade 6,5 horas em média. Você pode ter certeza de que são quase 6,5 horas ou de 6,5 horas aos 5 minutos mais próximos ou algo assim. Somente os intervalos terão algum nível de confiança associado a eles.
Glen_b -Reinstala Monica
11
@Glen_b chega ao cerne da questão - nunca podemos dizer que estamos confiantes de que estimamos um valor populacional exatamente correto, mas sim que temos alguma idéia sobre a precisão do nosso processo de estimativa.
James Stanley
@angrymonkey Acho que ainda é útil obter os conceitos subjacentes à abordagem (simulada) de amostragem repetida. Além disso, para estimar meios, não é necessário um tamanho de amostra "enorme" - a fórmula para erro padrão de uma média é sample std deviation / square root(n)- a raiz quadrada de n parte nos diz que obtemos retornos decrescentes na precisão da estimativa para incrementos fixos como tamanho da amostra fica maior (por exemplo, movendo-se de 10 a 20 pessoas em uma amostra melhora a precisão da estimativa mais do que ir de 210 a 220 pessoas.)
James Stanley
ótimo ... muito obrigado pela ajuda. portanto, um IC nos permite dizer que tenho 95% de certeza de que a pessoa média dorme entre 6,45 e 6,56 horas por noite? então por que alguns artigos fazem essas afirmações definitivas, como a pessoa comum assiste 4,5 horas de TV por dia? certamente o intervalo de confiança é algo como 95% 4.43 e 4.56
mescla 16/01
10
  • σ2/nnn
  • Se você coletar várias amostras independentes, a média de cada amostra será normal, e a média das médias será normal e tenderá à média verdadeira.
  • Se suas amostras são realmente da mesma distribuição (por exemplo, 100 amostras de 10 cada), você fará as mesmas inferências como se tivesse tirado uma grande amostra de 1000. (Mas no mundo real, amostras distintas provavelmente diferem da maneira que uma não pode ignorar; consulte "design de bloco aleatório".)
  • n
  • Se você coletar 100 amostras de 10 cada, a média da amostra terá uma distribuição com aparência mais normal do que os dados originais, mas menos normal que a distribuição da média geral.
  • A coleta de uma amostra grande também o aproximará da normalidade.
  • Se você deseja estimar a média da população, não faz diferença (em teoria) se você coletar uma grande amostra de 1000 ou 100 amostras de 10.
  • Mas, na prática, as pessoas da teoria da amostragem podem dividir a amostra por razões de agrupamento, estratificação e outros problemas. Eles então levam em consideração o esquema de amostragem ao fazer sua estimativa. Mas isso é realmente assunto para outra pergunta.
Placidia
fonte
na maioria dos livros didáticos, eles levam você a essa noção da distribuição amostral dos meios amostrais. Em essência, isso diz a você: "Ei, olhe, se você coletar muitas amostras, ela tende a ser normal e aproximará a média da população". Eles dizem que, se você colher amostras grandes o suficiente, poderá coletar apenas uma. A distribuição amostral da amostra significa que você deve acreditar que pode coletar uma amostra grande? Em outras palavras, qual é o propósito de entendê-lo? É apenas para ajudá-lo a entender a intuição por trás de tirar uma amostra grande? ignorando a idéia de amostragem theo
mergesort
Eu acho que @ James Stanley responde muito bem. Em qualquer caso da vida real, você coleta uma amostra, calcula a média da amostra e essa é sua estimativa.
Placidia 15/01
1

A distribuição amostral da média é a distribuição de TODAS as amostras de um determinado tamanho. A média da distância amostral é igual à média da população. Quando falamos de amostragem à distância média para amostras de um determinado tamanho, não estamos falando de uma amostra ou mesmo de mil amostras, mas de todas as amostras.

Allen Moser
fonte
0

A distância amostral da média não tem nada a ver com intervalos de confiança. Esse é outro conceito. Para amostragem dist, a população pode ser normal ou não normal a) Se pop for normal, então o dist dist da média será normal para qualquer tamanho de amostra. b) Se pop não for normal, então 1) a distância amostral da média NÃO PODE ser considerada normal, a menos que o tamanho da amostra seja 30 ou mais. Então, o Teorema do Limite Central nos diz que a distância da amostra pode ser considerada normal.

Você fala sobre prever. Prever também não tem nada a ver com isso. Você está inserindo demais no samp dist. O samp dist é simplesmente todas as amostras e, em seguida, a média é obtida. E a média de todas essas amostras, mu sub x bar, é igual à média da população, mu e distância padrão da amostragem do desvio padrão, sigma sub x bar = sigma dividido pela raiz quadrada de n. (Não falaremos sobre o fator finito de correção pop. Pegue sua estatística como valor de face. Não leia muito em um conceito. Primeiro, entenda o conceito básico.

PS O distanciamento médio da média não tem nada para fazer

Allen Moser
fonte
Gostaria de saber se esta resposta poderia ser combinada com a sua 1ª resposta, em vez de ser inserida como outra resposta. Normalmente, preferimos que você tenha 1 resposta por segmento. (Existem exceções.) Você pode adicionar material a uma resposta existente ou fazer alterações clicando no "editar" cinza na parte inferior esquerda.
gung - Restabelece Monica
0

Estive pensando em problemas de big data e vendo algumas dessas postagens esta manhã. Eu não acho que isso seja um problema trivial, seja a diferença entre analisar os 1000 dados como um conjunto em comparação com a análise de 10 conjuntos de 100. Em teoria , se a hipótese nula for verdadeira de que os dados são iid, isso não significa diferença. No entanto, o armazenamento em cluster e os padrões nos dados não são abordados, se alguém simplesmente pegar a média dos 1000 dados e citar a média estimada e o erro padrão associado.

A conclusão a que cheguei, olhando algumas páginas na stackexchange e na wikipedia, é que o big data permite que o óbvio seja visto. Se houver algum recurso interessante na população como um todo, um grande conjunto de dados os mostrará claros como o dia. Portanto, se eu tivesse um conjunto de dados muito grande, que pudesse observar visualmente, não entraria em ação e tomaria breves medidas de resumo sem antes procurar recursos muito óbvios. Nas minhas primeiras lições sobre inferência estatística, fui ensinado a examinar gráficos e visualizações dos dados como uma primeira passagem. Eu não posso enfatizar isso o suficiente. Se o conjunto de dados for muito grande para um ser humano olhar na tela, ele deverá ser subamostrado em uma resolução legível por humanos.

Olivia Grigg
fonte
Não assine suas postagens - é para isso que serve o nome de usuário no canto inferior direito da sua postagem.
Glen_b -Reinstala Monica