E se a sua amostra aleatória não for claramente representativa?

28

E se você pegar uma amostra aleatória e puder ver que ela claramente não é representativa, como em uma pergunta recente . Por exemplo, e se a distribuição da população for simétrica em torno de 0 e a amostra que você desenhar aleatoriamente tiver observações positivas e negativas desequilibradas, e o desequilíbrio for estatisticamente significativo, onde isso o deixa? Que declarações razoáveis ​​você pode fazer sobre a população com base em uma amostra tendenciosa? O que é um curso de ação razoável em tal situação? Importa quando, em nossa pesquisa, notamos esse desequilíbrio?

Joel W.
fonte
2
Michael, esse problema pode ocorrer uma vez em cada 20, se usarmos a significância estatística como nossa métrica. Na maioria das vezes, não sabemos quando escolhemos aleatoriamente uma amostra não representativa, porque não sabemos o suficiente sobre a população. Mas quando sabemos algo sobre a população e percebemos essa anomalia, o que fazemos?
Joel W.Jul
3
Sim, a prática mais correta é obter uma amostra aleatória grande o suficiente, como o @MichaelChernick escreveu. No entanto, um de meus professores me disse que ele verificou pela simulação de Monte Carlo que, quando um pesquisador precisa aumentar o tamanho da amostra, não é tão correto simplesmente adicionar unidades estatísticas à amostra, mas é preciso repetir a amostragem. Caso contrário, as estatísticas podem ser tendenciosas (mais uma vez!).
this.is.not.a.nick
4
@ Michael, eu não entendo por que sua afirmação é verdadeira. Um valor de p menor que 0,05 ocorrerá sob a hipótese nula em 5% das vezes, independentemente do tamanho da amostra. Então, como é possível que amostras maiores resolvam esse problema? Parece-me que sua recomendação convida implicitamente os leitores a confundir o tamanho e o poder dos testes de hipóteses.
whuber
2
@ Michael, o que você quer dizer com devemos coletar mais dados aleatoriamente? Temos a esperança de desenhar aleatoriamente uma amostra tendenciosa na outra direção? De qualquer forma, que número de casos adicionais devemos extrair? Você sugere que definamos um número no início ou use uma regra de parada? Se uma regra de parada, como pode ser a regra? Finalmente, mesmo que a amostra maior resultante não tenha viés estatisticamente significativo, sabemos que é composto por duas amostras, uma com viés e outra sem. Que declarações razoáveis ​​você pode fazer sobre a população com base em uma amostra tão complexa?
Joel W.
2
@ Michael Uma conclusão alternativa é que uma amostra altamente significativa e distorcida indica um problema com o procedimento de amostragem. Nesse caso, a falta de simetria persistirá em uma amostra maior.
whuber

Respostas:

7

A resposta dada pelo MLS (use a amostragem por importância) é tão boa quanto as suposições que você pode fazer sobre suas distribuições. A principal força do paradigma de amostragem de população finita é que ele não é paramétrico, pois não faz suposições sobre a distribuição dos dados para fazer inferências (válidas) sobre os parâmetros da população finita.

Uma abordagem para corrigir desequilíbrios de amostra é chamada pós-estratificação . Você precisa dividir a amostra em classes não sobrepostas (pós-estratos) e, em seguida, ponderar novamente essas classes de acordo com os números da população conhecidos. Se se sabe que sua população tem uma mediana de 0, é possível ponderar novamente as observações positivas e negativas para que suas proporções ponderadas se tornem 50-50: se você tivesse uma SRS azarada com 10 observações negativas e 20 observações positivas, você daria o negativas o peso de 15/10 = 1,5 e as positivas, 15/20 = 0,75.

Existem formas mais sutis de calibração da amostra , nas quais você pode calibrar sua amostra para satisfazer restrições mais gerais, como ter uma média de uma variável contínua igual ao valor específico. É difícil trabalhar com a restrição de simetria, embora isso possa ser possível também. Pode ser que Jean Opsomer tenha alguma coisa a respeito: ele tem feito muito trabalho de estimativa de kernel para dados de pesquisa.

StasK
fonte
Como a pós-estratificação se compara, lógica ou estatisticamente, a simplesmente descartar a amostra desequilibrada e extrair outra amostra? (Às vezes, desenhar a amostra é uma parte trabalhosa da pesquisa, mas às vezes é o que é feito depois que você extrai a amostra que exige muito trabalho e desenhá-la envolve um esforço relativamente menor, como em muitas pesquisas experimentais.)
Joel W .
2
Nunca estive em uma situação em que descartar os dados seja a melhor resposta e nunca os vi discutidos em nenhum dos livros de estatísticas da pesquisa. Na maioria das estatísticas da pesquisa, obter os dados é pelo menos cinco vezes mais caro do que qualquer um dos seguintes processamento e análise de dados (exceto provavelmente em algumas pesquisas na web baratas, nas quais a coleta de dados é quase gratuita). Se você está em um mundo experimental, não deve marcar sua postagem como "amostragem" e, em vez disso, usar "design de experiência".
StasK 17/07/12
Amostras aleatórias podem ser usadas em vez de estratificadas, porque existem muitas maneiras possíveis de estratificar em um cenário do mundo real. Pode acontecer que, após a seleção de duas amostras aleatórias para um experimento, você observe algum desequilíbrio flagrante. Então você fica preso entre uma pedra e um lugar difícil: viva com o desequilíbrio (por exemplo, todas as pessoas idosas em um grupo, todos os falantes não nativos em um grupo, todos os doutores em um grupo etc.) ou desenhe um nova amostra e enfraquecer a conexão entre o que você fez e as suposições de todas as técnicas estatísticas. A pós-estratificação parece ser do segundo tipo.
Joel W.
2

Eu sou o membro júnior aqui, mas eu diria que descartar e recomeçar é sempre a melhor resposta, se você souber que sua amostra é significativamente não representativa e se tiver uma idéia de como a amostra não representativa surgiu em primeiro lugar e como evitá-lo, se possível, pela segunda vez.

De que adianta provar uma segunda vez se você provavelmente vai acabar no mesmo barco?

Se a coleta de dados novamente não fizer sentido ou for proibitivamente onerosa, você precisará trabalhar com o que possui, tentando compensar a falta de representação por estratificação, imputação, modelagem mais sofisticada ou qualquer outra coisa. Você precisa observar claramente que compensou dessa maneira, por que acha que é necessário e por que acha que funcionou. Em seguida, trabalhe com a incerteza que surgiu da sua compensação até o fim da análise. (Isso tornará suas conclusões menos certas, certo?)

Se você não puder fazer isso, precisará abandonar o projeto completamente.

Wayne
fonte
E se você não souber por que a amostra não é representativa, você ainda está justificado em descartá-la e desenhar uma nova amostra aleatória? Se não, por que não? Além disso, digamos que você descarte a primeira amostra e desenhe uma segunda, as estatísticas inferenciais que você pode calcular com base na segunda amostra são inapropriadas devido à primeira amostra descartada? Por exemplo, se você se inscrever para descartar amostras não representativas, está alterando a distribuição de amostragem em que seu teste estatístico se baseia? Em caso afirmativo, você está tornando mais fácil ou mais difícil encontrar significância estatística?
Joel W.Jul
@Wayne Boa ideia.
Subhash C. Davar
1

qpp

sp=E{f(X)|Xp}s(p)f{x1,...,xn}p

sp1nEu=1nf(xEu).
xEuqsp
sp1nEu=1np(xEu)q(xEu)f(xEu).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,
MLS
fonte
Você diz que a amostra não é tendenciosa e qualquer tentativa de corrigir a amostra adicionará tendenciosidade. Sugiro que o processo pelo qual a amostra foi coletada seja sem viés, mas, de fato, a amostra é tendenciosa, talvez seriamente tendenciosa. Existem maneiras de tentar corrigir o grande viés conhecido que se espera que introduza um viés adicional relativamente pequeno?
Joel W.Jul
1
Para desambiguar um pouco a terminologia: penso no viés como uma propriedade da expectativa de uma variável aleatória. Em outras palavras, se o processo que coleta os dados é imparcial, o mesmo ocorre com a amostra. No entanto, a amostra ainda pode ser atípica e levar a conclusões indesejadas. Qualquer maneira geral de corrigir isso induz um viés, pois você está adaptando o procedimento de amostragem (imparcial). Provavelmente, a abordagem menos tendenciosa é coletar e usar novas amostras. Uma abordagem um pouco mais tendenciosa adicionaria essas novas amostras às antigas, mas o resultado pode ser menos variável, pois você tem mais amostras no total.
MLS
2
@ Joel W. O que você quer dizer quando diz que a amostra é tendenciosa? É a estimativa da média com base na amostra que é tendenciosa? Qualquer estimativa amostral difere da verdadeira média e algumas podem estar muito distantes. Na amostragem aleatória, isso ocorre devido à variação, não ao viés. Não é correto dizer que uma amostra é tendenciosa porque sabe-se que a distribuição da amostra parece muito diferente da distribuição da população. Em amostras pequenas, muitos podem parecer não representativos por um motivo ou outro, mas a amostragem aleatória não é uma amostra tendenciosa.
22912 Michael Michael Chernick
1
@ Michael, concordo que devemos reconhecer e viver com variações aleatórias quando for necessário. Estou perguntando o que podemos razoavelmente fazer quando detectarmos variações não intencionais. E se nossa amostra aleatória incluir relativamente jovens demais ou trabalhadores de colarinho azul etc., quando essas categorias forem relevantes para nossa pesquisa? Indo ainda mais longe, devemos verificar nossas amostras para ver se elas estão desequilibradas dessa maneira? E importa se notamos isso antes de fazer mais pesquisas com a amostra ou depois de termos investido recursos na realização de pesquisas com a amostra?
Joel W.
1
O desequilíbrio covariável é muito importante. Se existir em uma amostra, um modelo de regressão pode ser usado para ajustá-lo. Vance Berger escreveu um livro sobre esse tópico que eu provavelmente citei anteriormente neste site. Aqui está um link da amazon para uma descrição do livro. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick