Qual é a diferença entre uma população e uma amostra?

38

Qual é a diferença entre uma população e uma amostra? Quais variáveis ​​e estatísticas comuns são usadas para cada uma e como elas se relacionam?

Baltimark
fonte

Respostas:

36

A população é o conjunto de entidades em estudo. Por exemplo, a altura média dos homens. Esta é uma população hipotética porque inclui todos os homens que viveram, estão vivos e viverão no futuro. Gosto desse exemplo, porque nos leva a um ponto em que nós, como analistas, escolhemos a população que queremos estudar. Normalmente, é impossível pesquisar / medir toda a população, porque nem todos os membros são observáveis ​​(por exemplo, homens que existirão no futuro). Se é possível enumerar toda a população, geralmente é caro fazê-lo e levaria muito tempo. No exemplo acima, temos uma população "homens" e um parâmetro de interesse, sua altura.

Em vez disso, poderíamos pegar um subconjunto dessa população chamado amostra e usá-la para extrair inferências sobre a população em estudo, dadas algumas condições. Assim, poderíamos medir a altura média dos homens em uma amostra da população que chamamos de estatística e usá-la para extrair inferências sobre o parâmetro de interesse na população. É uma inferência, porque haverá alguma incerteza e imprecisão envolvidas na obtenção de conclusões sobre a população com base em uma amostra. Isso deve ser óbvio - temos menos membros em nossa amostra do que nossa população, portanto, perdemos algumas informações.

Existem muitas maneiras de selecionar uma amostra e o estudo disso é chamado de teoria da amostragem. Um método comumente usado é chamado Simple Random Sampling (SRS). No SRS, cada membro da população tem uma probabilidade igual de ser incluído na amostra, daí o termo "aleatório". Existem muitos outros métodos de amostragem, por exemplo, amostragem estratificada, amostragem por agrupamento, etc., todos com suas vantagens e desvantagens.

É importante lembrar que a amostra que retiramos da população é apenas uma de um grande número de amostras em potencial. Se dez pesquisadores estudassem a mesma população, coletando suas próprias amostras, eles poderiam obter respostas diferentes. Voltando ao nosso exemplo anterior, cada um dos dez pesquisadores pode ter uma altura média diferente dos homens, ou seja, a estatística em questão (altura média) varia de amostra para amostra - ela tem uma distribuição chamada distribuição de amostragem. Podemos usar essa distribuição para entender a incerteza em nossa estimativa do parâmetro populacional.

Sabe-se que a distribuição amostral da média da amostra é uma distribuição normal com um desvio padrão igual ao desvio padrão da amostra dividido pelo tamanho da amostra. Como isso pode ser facilmente confundido com o desvio padrão da amostra, é mais comum chamar o desvio padrão da distribuição da amostra como erro padrão .

Graham Cookson
fonte
7
Não é um pouco inútil usar "todos os homens" como população? Quero dizer, não há sequer um consenso sobre a idade do homo sapiens , ou se o homo neanderthalensis era uma espécie separada, muito menos se os machos da ferramenta de pedra que usam o homo habilis contam como "homens". Presumivelmente, os mesmos problemas também nos enfrentarão no futuro.
naught101
No último parágrafo, acho que há um pouco menor de mão, e deve ler ... "igual ao desvio padrão da amostra dividido pela [raiz quadrada] do tamanho da amostra" em referência ao erro padrão .
Antoni Parellada
13

A população é o conjunto inteiro de valores, ou indivíduos, nos quais você está interessado. A amostra é um subconjunto da população e é o conjunto de valores que você realmente usa em sua estimativa.

Então, por exemplo, se você deseja conhecer a altura média dos residentes na China, essa é a sua população, ou seja, a população da China. O problema é que esse número é bastante grande e você não seria capaz de obter dados para todos os participantes. Então você desenha uma amostra, ou seja, recebe algumas observações ou a altura de algumas pessoas na China (um subconjunto da população, a amostra) e faz sua inferência com base nisso.

Vivi
fonte
Boa resposta. Eu acho que você deveria aprofundar o que quer dizer com "faça sua inferência com base nisso". Essa é a segunda parte da minha pergunta.
Baltimark
mmm ... eu realmente não entendi o que você quis dizer com variáveis ​​e estatísticas comuns ... Ah, você quer dizer que você usa a distribuição z se você tiver a variação populacional e a distribuição t se você tiver apenas a variação da amostra e o tamanho da amostra é pequeno? Algo nesse sentido?
Vivi
O que eu descobri foi que média e desvio padrão são parâmetros associados à população, mas são estimados pela média da amostra ((1 / N) * \ sum (x_i)) e pelo desvio padrão da amostra ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark
8

A população é tudo no grupo de estudo. Por exemplo, se você está estudando o preço das ações da Apple, são os preços históricos, atuais e até todos os futuros de ações. Ou, se você administra uma fábrica de ovos, são todos os ovos fabricados pela fábrica.

Você nem sempre precisa amostrar e fazer testes estatísticos. Se sua população é sua família de vida imediata, você não precisa provar, pois a população é pequena.

A amostragem é popular por vários motivos:

  • é mais barato que um censo (amostrando toda a população)
  • você não tem acesso a dados futuros, então deve provar o passado
  • você tem que destruir alguns itens testando-os e não quer destruí-los todos (por exemplo, ovos)
Neil McGuigan
fonte
2

Quando pensamos no termo "população", geralmente pensamos nas pessoas em nossa cidade, região, estado ou país e em suas respectivas características, como sexo, idade, estado civil, filiação étnica, religião e assim por diante. Nas estatísticas, o termo "população" assume um significado ligeiramente diferente. A "população" nas estatísticas inclui todos os membros de um grupo definido em que estamos estudando ou coletando informações para decisões orientadas por dados.

Uma parte da população é chamada de amostra. É uma proporção da população, uma fatia dela, uma parte dela e todas as suas características. Uma amostra é um grupo cientificamente elaborado que realmente possui as mesmas características da população - se for coletado aleatoriamente (pode ser difícil para você acreditar, mas é verdade!)

As amostras coletadas aleatoriamente devem ter duas características:

* Cada pessoa tem a mesma oportunidade de ser selecionada para sua amostra; e,

* A seleção de uma pessoa é independente da seleção de outra pessoa.

O que é ótimo em amostras aleatórias é que você pode generalizar para a população em que está interessado. Portanto, se você provar 500 famílias em sua comunidade, poderá generalizar para as 50.000 famílias que vivem lá. Se você combinar algumas das características demográficas dos 500 com os 50.000, verá que elas são surpreendentemente semelhantes.

roseleneramas
fonte
2
Isso é basicamente correto, se corretamente interpretado. Receio que alguns leitores possam ser enganados ao pensar que amostras aleatórias simples com substituição (que é o tipo de amostra aleatória que você descreve; existem outros tipos) reproduzem corretamente todas as características da população. De fato, eles raramente fazem. O ponto da amostragem aleatória é que as diferenças (inevitáveis) entre as características da amostra e as características da população podem ser atribuídas ao processo de seleção aleatória.
whuber
0

Uma população inclui todos os elementos de um conjunto de dados. Uma amostra consiste em uma ou mais observações da população. BOA, A. (2012, 17)

user91513
fonte
2
Quando todos os elementos de um "conjunto de dados" são considerados uma população, esse conjunto de dados é chamado de censo da população. Pouquíssimos conjuntos de dados são censos.
whuber