Subamostra de uma amostra aleatória: amostra aleatória?

8

Digamos que você tenha uma grande amostra aleatória de jogadores de futebol na Europa, mas você só está interessado no que acontece na Espanha. Você poderia reduzir sua amostra para jogadores da Espanha e ainda chamá-la de amostra aleatória (mas de uma população diferente)? Caso contrário, como você chamaria essa subamostra e quais precauções específicas você deve tomar para poder inferir a população de jogadores de futebol espanhol?

Meu sentimento é que usar essa subamostra seria bom desde que seja grande o suficiente, mas talvez esteja faltando alguma coisa.

Antoine Vernet
fonte
3
Observe que isso é vagamente semelhante à amostragem por rejeição. No entanto, no método que você descreve, observe que o tamanho da amostra resultante é na verdade uma variável aleatória. Dependendo do tipo de análise que você tem em mente, isso pode ou não introduzir algumas complicações. Por exemplo, em muitos (mas não todos) GLMs, o tamanho da amostra é efetivamente aleatório, mas a inferência é feita condicionalmente (e essa abordagem pode ser justificada rigorosamente).
cardeal
@ cardinal Obrigado pela referência à amostragem por rejeição. Gostaria de saber que tipo de complicações seriam introduzidas? Se a nova amostra puder ser descrita como uma amostra aleatória de outra população, não posso "virtualmente" ignorar o fato de ter sido obtida por meio de reamostragem?
Antoine Vernet

Respostas:

2

De um modo geral, o que você realmente deseja de uma amostra é ser "representativo". A amostragem aleatória é um bom caminho, pois permite a todos os sujeitos a mesma probabilidade de serem amostrados; Na esperança de que todos os atributos e relações de atributos existentes na população existam na amostra. Tornando-o "representativo". No seu caso, se você acredita que todos os jogadores espanhóis tiveram uma chance a priori de ser sorteado na (sub) amostra, então é "aleatório".

Em relação às considerações de tamanho: Uma única observação ainda pode ser uma "amostra aleatória". Amostras maiores são necessárias quando você deseja mais precisão e, principalmente, quando procura relações raras na população, que podem não estar presentes em uma amostra pequena.

JohnRos
fonte
3
A aleatoriedade é mais do que chances anteriores iguais. Por exemplo, uma equipe na Espanha poderia ter sido selecionada aleatoriamente. Supondo tamanhos iguais de equipe, isso dá a todos os jogadores de futebol a mesma chance de serem incluídos na amostra, mas é muito difícil supor que um único time seja verdadeiramente representativo de todos os jogadores do país.
whuber
2
(...) mas é exagero supor que um único time é verdadeiramente representativo de todos os jogadores do país ... especialmente se esse país for a Espanha ! :)
cardeal
2
@ whuber- você está certo. Para ser mais preciso, não só igual anteriores possibilidades, mas também possibilidades iguais dado o resto da amostra. Isso excluirá o esquema de amostragem da equipe.
31411 JohnRos
@JohnRos. Obrigado pela precisão sobre a relação entre aleatoriedade e representatividade.
Antoine Vernet
@whuber Obrigado por apontar que chances iguais iguais são necessárias, mas não suficientes.
Antoine Vernet
1

Supondo que não haja vieses na técnica de amostragem, isso deve ser bom. Algumas perguntas a serem feitas podem ser:

-> A pesquisa foi realizada em espanhol, se solicitado? (Viés de idioma) -> A pesquisa foi realizada por telefone ou pessoalmente? Se por telefone e telefones celulares foram excluídos, é mais ou menos provável que os jogadores espanhóis possuam telefones celulares do que os jogadores no resto da Europa e por que razões? -> A taxa pela qual os jogadores espanhóis se recusaram a responder às perguntas da pesquisa foi diferente da taxa para os jogadores como um todo? -> No geral, que proporção de jogadores espanhóis foi amostrada?

Sem saber a composição exata dos dados, é difícil dizer mais. Há algum problema específico com o qual você se preocupa?

John Doucette
fonte
Eu concordo com os argumentos que você faz , mas onde diz que os jogadores foram contatados ou tentaram ser contatados? O OP poderia ter, digamos, algumas estatísticas resumidas para um subconjunto aleatório de jogadores da Europa.
cardeal
@ John Doucette Obrigado. Essas precauções fazem sentido para mim, mas, estritamente falando, não são precauções estatísticas, mas sim medidas de design, o que me leva a pensar que, assumindo que não há viés conhecido para a subpopulação, selecionar pessoas nessa subpopulação em sua amostra deixa uma amostra aleatória . Quanto aos dados, o exemplo é fictício, eu estava apenas tentando me afastar das crianças nas salas de aula nas escolas, tipo de exemplo.
Antoine Vernet