E se você pegar uma amostra aleatória e puder ver que ela claramente não é representativa, como em uma pergunta recente . Por exemplo, e se a distribuição da população for simétrica em torno de 0 e a amostra que você desenhar aleatoriamente tiver observações positivas e negativas desequilibradas, e o desequilíbrio for estatisticamente significativo, onde isso o deixa? Que declarações razoáveis você pode fazer sobre a população com base em uma amostra tendenciosa? O que é um curso de ação razoável em tal situação? Importa quando, em nossa pesquisa, notamos esse desequilíbrio?
sampling
experiment-design
inference
sample
Joel W.
fonte
fonte
Respostas:
A resposta dada pelo MLS (use a amostragem por importância) é tão boa quanto as suposições que você pode fazer sobre suas distribuições. A principal força do paradigma de amostragem de população finita é que ele não é paramétrico, pois não faz suposições sobre a distribuição dos dados para fazer inferências (válidas) sobre os parâmetros da população finita.
Uma abordagem para corrigir desequilíbrios de amostra é chamada pós-estratificação . Você precisa dividir a amostra em classes não sobrepostas (pós-estratos) e, em seguida, ponderar novamente essas classes de acordo com os números da população conhecidos. Se se sabe que sua população tem uma mediana de 0, é possível ponderar novamente as observações positivas e negativas para que suas proporções ponderadas se tornem 50-50: se você tivesse uma SRS azarada com 10 observações negativas e 20 observações positivas, você daria o negativas o peso de 15/10 = 1,5 e as positivas, 15/20 = 0,75.
Existem formas mais sutis de calibração da amostra , nas quais você pode calibrar sua amostra para satisfazer restrições mais gerais, como ter uma média de uma variável contínua igual ao valor específico. É difícil trabalhar com a restrição de simetria, embora isso possa ser possível também. Pode ser que Jean Opsomer tenha alguma coisa a respeito: ele tem feito muito trabalho de estimativa de kernel para dados de pesquisa.
fonte
Eu sou o membro júnior aqui, mas eu diria que descartar e recomeçar é sempre a melhor resposta, se você souber que sua amostra é significativamente não representativa e se tiver uma idéia de como a amostra não representativa surgiu em primeiro lugar e como evitá-lo, se possível, pela segunda vez.
De que adianta provar uma segunda vez se você provavelmente vai acabar no mesmo barco?
Se a coleta de dados novamente não fizer sentido ou for proibitivamente onerosa, você precisará trabalhar com o que possui, tentando compensar a falta de representação por estratificação, imputação, modelagem mais sofisticada ou qualquer outra coisa. Você precisa observar claramente que compensou dessa maneira, por que acha que é necessário e por que acha que funcionou. Em seguida, trabalhe com a incerteza que surgiu da sua compensação até o fim da análise. (Isso tornará suas conclusões menos certas, certo?)
Se você não puder fazer isso, precisará abandonar o projeto completamente.
fonte
fonte