“Toda pessoa de camiseta azul” é uma amostra sistemática?

17

Estou dando uma aula de introdução às estatísticas e estava revisando os tipos de amostragem, incluindo amostragem sistemática, em que você experimenta cada k-ésimo indivíduo ou objeto.

Um aluno perguntou se a amostragem de cada pessoa com uma característica em particular realizaria a mesma coisa.

Por exemplo, amostrar todas as pessoas com uma camiseta azul seria aleatório o suficiente e forneceria uma representação suficiente de toda a população? Pelo menos, se você estiver fazendo uma pergunta diferente de "Que cor de camiseta você prefere usar?" Meu senso é não, mas me perguntei se alguém aqui pensava nisso.

drury
fonte
12
Não. Se você morasse em Glasgow, na Escócia, a maioria das pessoas que vestem uma "camiseta azul" provavelmente seria uma apoiante do Rangers . Você estaria perdendo adeptos celtas . Em Glasgow, o time de futebol seria um substituto para a religião.
Csgillespie
1
@csgillespie Exemplo maravilhoso!
whuber
Além disso, você pode ter mais meninos do que meninas porque em azul cultura ocidental é associado com sexo masculino
Roland Kofler
As camisetas coloridas são mais caras que as brancas, e nem todos os modelos funcionam para todas as cores. Portanto, mesmo que pareça inocente, mesmo entre os usuários de camisetas, você pode selecionar pessoas mais ricas ou consumidores mais impulsivos ou pessoas que favorecem um determinado partido político.
Douglas Zare
Há também uma associação entre idade e uso de camisetas, formação cultural e uso de camisetas e assim por diante.
Glen_b -Reinstate Monica

Respostas:

22

A resposta, em geral, à sua pergunta é "não". Obter uma amostra aleatória de uma população (especialmente de humanos) é notoriamente difícil. Ao condicionar uma característica específica, você, por definição, não obtém uma amostra aleatória. Quanto viés isso introduz é outra questão.

Como um exemplo um pouco absurdo, você não gostaria de experimentar, por exemplo, um jogo de futebol entre os Bears e os Packers, mesmo se sua população fosse "fã de futebol". (Os fãs de ursos podem ter características diferentes das de outros fãs de futebol, mesmo quando a quantidade em que você está interessado pode não parecer diretamente relacionada ao futebol.)

Existem muitos exemplos famosos de desvios ocultos resultantes da obtenção de amostras dessa maneira. Por exemplo, nas recentes eleições nos EUA, nas quais foram realizadas pesquisas por telefone, acredita-se que as pessoas que possuem apenas um telefone celular e nenhum telefone fixo estejam (talvez dramaticamente) sub-representadas na amostra. Como essas pessoas também tendem a ser, em geral, mais jovens do que aquelas com telefones fixos, é obtida uma amostra tendenciosa. Além disso, as pessoas mais jovens têm crenças políticas muito diferentes das populações mais velhas. Portanto, este é um exemplo simples de um caso em que, mesmo quando a amostra não foi intencionalmente condicionada a uma característica específica, ainda assim aconteceu. E, mesmo que a pesquisa não tenha nada a ver com a característica condicionante (isto é, se alguém usa ou não um telefone fixo), o efeito da característica condicionante nas conclusões da pesquisa foi significativo, tanto estatisticamente quanto praticamente.

cardeal
fonte
6

Desde que a distribuição da característica que você está usando para selecionar unidades na amostra seja ortogonal à distribuição da característica da população que você deseja estimar, é possível obter uma estimativa imparcial da quantidade da população condicionando a seleção nela. A amostra não é estritamente uma amostra aleatória . Mas as pessoas tendem a ignorar que amostras aleatórias são boas porque a variável aleatória usada para selecionar unidades na amostra é ortogonal à distribuição da característica da população, não porque é aleatória.

Pense em desenhar aleatoriamente a partir de um Bernoulli com P (invlogit (x_i)) onde x_i em [-inf, inf] é um recurso da unidade i, de modo que Cov (x, y)! = 0 e y é a característica da população cuja significa que você deseja estimar. A amostra é "aleatória" no sentido em que você está randomizando antes de selecionar a amostra. Mas a amostra não produz uma estimativa imparcial da média da população de y.

O que você precisa é condicionar a seleção na amostra em uma variável tão boa quanto atribuída aleatoriamente . Ou seja, isso é ortogonal à variável da qual depende a quantidade de interesse. A randomização é boa porque garante a ortogonalidade, não por causa da própria randomização.

PAS
fonte
4
Isso está correto, mas como você saberia se fosse ortogonal a menos que tenha uma amostra verdadeiramente aleatória?
Peter Flom - Restabelece Monica