Estou dando uma aula de introdução às estatísticas e estava revisando os tipos de amostragem, incluindo amostragem sistemática, em que você experimenta cada k-ésimo indivíduo ou objeto.
Um aluno perguntou se a amostragem de cada pessoa com uma característica em particular realizaria a mesma coisa.
Por exemplo, amostrar todas as pessoas com uma camiseta azul seria aleatório o suficiente e forneceria uma representação suficiente de toda a população? Pelo menos, se você estiver fazendo uma pergunta diferente de "Que cor de camiseta você prefere usar?" Meu senso é não, mas me perguntei se alguém aqui pensava nisso.
Respostas:
A resposta, em geral, à sua pergunta é "não". Obter uma amostra aleatória de uma população (especialmente de humanos) é notoriamente difícil. Ao condicionar uma característica específica, você, por definição, não obtém uma amostra aleatória. Quanto viés isso introduz é outra questão.
Como um exemplo um pouco absurdo, você não gostaria de experimentar, por exemplo, um jogo de futebol entre os Bears e os Packers, mesmo se sua população fosse "fã de futebol". (Os fãs de ursos podem ter características diferentes das de outros fãs de futebol, mesmo quando a quantidade em que você está interessado pode não parecer diretamente relacionada ao futebol.)
Existem muitos exemplos famosos de desvios ocultos resultantes da obtenção de amostras dessa maneira. Por exemplo, nas recentes eleições nos EUA, nas quais foram realizadas pesquisas por telefone, acredita-se que as pessoas que possuem apenas um telefone celular e nenhum telefone fixo estejam (talvez dramaticamente) sub-representadas na amostra. Como essas pessoas também tendem a ser, em geral, mais jovens do que aquelas com telefones fixos, é obtida uma amostra tendenciosa. Além disso, as pessoas mais jovens têm crenças políticas muito diferentes das populações mais velhas. Portanto, este é um exemplo simples de um caso em que, mesmo quando a amostra não foi intencionalmente condicionada a uma característica específica, ainda assim aconteceu. E, mesmo que a pesquisa não tenha nada a ver com a característica condicionante (isto é, se alguém usa ou não um telefone fixo), o efeito da característica condicionante nas conclusões da pesquisa foi significativo, tanto estatisticamente quanto praticamente.
fonte
Desde que a distribuição da característica que você está usando para selecionar unidades na amostra seja ortogonal à distribuição da característica da população que você deseja estimar, é possível obter uma estimativa imparcial da quantidade da população condicionando a seleção nela. A amostra não é estritamente uma amostra aleatória . Mas as pessoas tendem a ignorar que amostras aleatórias são boas porque a variável aleatória usada para selecionar unidades na amostra é ortogonal à distribuição da característica da população, não porque é aleatória.
Pense em desenhar aleatoriamente a partir de um Bernoulli com P (invlogit (x_i)) onde x_i em [-inf, inf] é um recurso da unidade i, de modo que Cov (x, y)! = 0 e y é a característica da população cuja significa que você deseja estimar. A amostra é "aleatória" no sentido em que você está randomizando antes de selecionar a amostra. Mas a amostra não produz uma estimativa imparcial da média da população de y.
O que você precisa é condicionar a seleção na amostra em uma variável tão boa quanto atribuída aleatoriamente . Ou seja, isso é ortogonal à variável da qual depende a quantidade de interesse. A randomização é boa porque garante a ortogonalidade, não por causa da própria randomização.
fonte