Estou curioso: quais são exatamente os problemas causados pelo uso de amostragem representativa, em vez de amostragem aleatória, sempre que criar uma subamostra de um grande conjunto de dados para análise não experimental. Além disso, quão eficaz é a correspondência de escore de propensão sempre que se deseja criar grupos de comparação balanceada para análises não experimentais?
5
Respostas:
Para responder sua primeira pergunta: depende da subamostra que você deseja usar.
Uma amostra representativa ou estratificada é construída dividindo a população de interesse em subconjuntos não sobrepostos, desenhando uma amostra aleatória de cada subconjunto e, em seguida, computando pesos para ajustar o fato de que nem todos os elementos da amostra tinham a mesma probabilidade de serem selecionados da população.
A vantagem de usar uma amostra representativa ou estratificada é que você pode usar as informações que você tem sobre a população para construir sua amostra e, assim, ter estimativas mais confiáveis das estatísticas calculadas para a população de interesse. A desvantagem é que os pesos que você computou são corretos para a amostra estratificada que você construiu, mas se você quiser explorar características que diferem entre os estratos, esses pesos podem muito bem ser os pesos errados. Suas estimativas seriam tendenciosas e você provavelmente não conseguiria se ajustar a esse viés.
Quanto à correspondência de escore de propensão. Você só pode combinar com o que você pode ver. Você ainda terá que lidar com o problema de viés de variável omitida. É possível que a correspondência de escore de propensão aumente em vez de diminuir o viés. Quão eficaz é depende de quais suposições você faz e se essas suposições são válidas.
fonte
Uma amostra sendo "representativa" da população não tem nada a ver com a distribuição de algum atributo em sua amostra, que é aleatória. O que conta é que a probabilidade de uma unidade ser incluída na amostra é igual para toda a população. Digamos que você queira estimar a proporção de mulheres em uma população. Quando você desenha uma amostra aleatória de pessoas da população, a proporção de mulheres em sua amostra é uma estimativa consistente para a proporção de mulheres na população porque sua amostra é aleatória. Não será o mesmo por causa do erro de amostragem. Conforme você desenha uma amostra maior e maior, sua estimativa do compartilhamento feminino convergirá para o valor da população.
Agora, digamos que você já conheça a parcela da população feminina e queira estimar outra coisa. Digamos que sua população de interesse seja composta por 6 pessoas, 2 mulheres e 4 homens. Você desenha uma amostra de 3 pessoas sem reposição. No caso de amostragem aleatória, a probabilidade de amostragem de cada pessoa na população é 1/2. Se você desenhar uma amostra estratificada consistindo de 1 mulher e 2 homens, a probabilidade de amostragem ainda é 1/2 para cada pessoa na população, portanto, ambas as formas de amostragem são representativas da população.
Você tem alguma coisa a ganhar estratificando sua amostra? Se a coisa que você gostaria de estimar é independente do gênero, você não ganhará nada. No entanto, se você quiser estimar algo que não seja independente do sexo, uma amostra estratificada fornecerá uma estimativa mais precisa, reduzindo o erro de amostragem. A desvantagem é que, se você, por algum motivo, usar probabilidades de amostragem incorretas e não se ajustar a isso, obterá uma estimativa tendenciosa.
RE: Acabei de perceber que esta resposta é principalmente uma duplicata da que está acima. Me desculpe por isso.
fonte