Estou tentando aprender estatística porque acho que ela é tão prevalente que me proíbe de aprender algumas coisas, se não entendi direito. Estou tendo problemas para entender essa noção de distribuição amostral dos meios amostrais. Não consigo entender como alguns livros e sites explicaram isso. Acho que tenho um entendimento, mas não tenho certeza se está correto. Abaixo está minha tentativa de entendê-lo.
Quando falamos de algum fenômeno assumindo uma distribuição normal, geralmente é (nem sempre) referente à população.
Queremos usar estatísticas inferenciais para prever algumas coisas sobre alguma população, mas não temos todos os dados. Utilizamos amostragem aleatória e cada amostra de tamanho n tem a mesma probabilidade de ser selecionada.
Então, coletamos muitas amostras, digamos 100 e, em seguida, a distribuição das médias dessas amostras será aproximadamente normal, de acordo com o teorema do limite central. A média das médias da amostra aproximará a média da população.
Agora, o que eu não entendo é que muitas vezes você vê "Uma amostra de 100 pessoas ..." Não precisaríamos de 10 ou 100 amostras de 100 pessoas para aproximar a população da média? Ou é o caso de podermos colher uma amostra grande o suficiente, digamos 1000 e depois dizer que a média se aproximará da média da população? OU coletamos uma amostra de 1000 pessoas e, em seguida, coletamos 100 amostras aleatórias de 100 pessoas em cada amostra das 1000 pessoas originais que pegamos e depois usamos isso como nossa aproximação?
Tomar uma amostra grande o suficiente para aproximar a média (quase) sempre funciona? A população precisa ser normal para que isso funcione?
sample std deviation / square root(n)
- a raiz quadrada de n parte nos diz que obtemos retornos decrescentes na precisão da estimativa para incrementos fixos como tamanho da amostra fica maior (por exemplo, movendo-se de 10 a 20 pessoas em uma amostra melhora a precisão da estimativa mais do que ir de 210 a 220 pessoas.)fonte
A distribuição amostral da média é a distribuição de TODAS as amostras de um determinado tamanho. A média da distância amostral é igual à média da população. Quando falamos de amostragem à distância média para amostras de um determinado tamanho, não estamos falando de uma amostra ou mesmo de mil amostras, mas de todas as amostras.
fonte
A distância amostral da média não tem nada a ver com intervalos de confiança. Esse é outro conceito. Para amostragem dist, a população pode ser normal ou não normal a) Se pop for normal, então o dist dist da média será normal para qualquer tamanho de amostra. b) Se pop não for normal, então 1) a distância amostral da média NÃO PODE ser considerada normal, a menos que o tamanho da amostra seja 30 ou mais. Então, o Teorema do Limite Central nos diz que a distância da amostra pode ser considerada normal.
Você fala sobre prever. Prever também não tem nada a ver com isso. Você está inserindo demais no samp dist. O samp dist é simplesmente todas as amostras e, em seguida, a média é obtida. E a média de todas essas amostras, mu sub x bar, é igual à média da população, mu e distância padrão da amostragem do desvio padrão, sigma sub x bar = sigma dividido pela raiz quadrada de n. (Não falaremos sobre o fator finito de correção pop. Pegue sua estatística como valor de face. Não leia muito em um conceito. Primeiro, entenda o conceito básico.
PS O distanciamento médio da média não tem nada para fazer
fonte
Estive pensando em problemas de big data e vendo algumas dessas postagens esta manhã. Eu não acho que isso seja um problema trivial, seja a diferença entre analisar os 1000 dados como um conjunto em comparação com a análise de 10 conjuntos de 100. Em teoria , se a hipótese nula for verdadeira de que os dados são iid, isso não significa diferença. No entanto, o armazenamento em cluster e os padrões nos dados não são abordados, se alguém simplesmente pegar a média dos 1000 dados e citar a média estimada e o erro padrão associado.
A conclusão a que cheguei, olhando algumas páginas na stackexchange e na wikipedia, é que o big data permite que o óbvio seja visto. Se houver algum recurso interessante na população como um todo, um grande conjunto de dados os mostrará claros como o dia. Portanto, se eu tivesse um conjunto de dados muito grande, que pudesse observar visualmente, não entraria em ação e tomaria breves medidas de resumo sem antes procurar recursos muito óbvios. Nas minhas primeiras lições sobre inferência estatística, fui ensinado a examinar gráficos e visualizações dos dados como uma primeira passagem. Eu não posso enfatizar isso o suficiente. Se o conjunto de dados for muito grande para um ser humano olhar na tela, ele deverá ser subamostrado em uma resolução legível por humanos.
fonte