Inicializando uma amostra de uma população finita

8

Alguém pode me apontar alguma referência para a teoria sobre inicialização de uma amostra de uma população de tamanho conhecido?

Estou acostumado a usar o Bootstrap para calcular intervalos de confiança de uma amostra quando o tamanho da população é considerado muito maior que a amostra (portanto, uma seleção aleatória com repetição deve emular bem o processo de amostragem).

Agora digamos que eu sei que a população é de 1000, e eu amostramos 800 (e vamos supor que a amostragem seja de fato aleatória). A seleção aleatória com repetição não parece ser apropriada. Pelo princípio pigeonhole, se eu realmente coletar outra amostra aleatória do tamanho 800, é garantido que pelo menos 600 valores serão os mesmos da amostra original, algo que o bootstrap tradicional não pode replicar (e pode perder muito).

Alguma solução? Eu pensei sobre:

  • Amostragem 1000 com repetição e, em seguida, escolha aleatoriamente 800 (parece ser uma abordagem equivalente à inicialização tradicional)
  • Amostra 600 sem repetição, do que com mais 200 amostras usando todas as 800 amostras com repetição. Isso explicaria o efeito que descrevi anteriormente.

Alguma idéia do que é bom e ruim com essas abordagens? Ou alguma abordagem alternativa?

Inox
fonte

Respostas:

6

A amostragem de bootstrap deve se parecer com o processo de amostragem dos dados da população. No caso de população finita, você amostrou a fração fora da população de tamanhofN, ie n=fNcasos. Existem dois problemas com o uso do bootstrap nesse cenário: (1) se você utilizasse o bootstrap tradicional, você faria amostragem com substituição e não sem substituição; (2) se você amostrasse sem substituiçãofncasos, você acabaria com uma amostra menor que . O primeiro cenário é uma péssima ideia, pois, nesse caso, o bootstrap não se pareceria com o processo de amostragem original. Para usar o bootstrap em casos de população finita, você tem três alternativas:n

  1. Amostra sem amostras de substituição de tamanho e depois redimensionar os resultados. Encontrar o fator de redimensionamento apropriado pode ser mais complicado do que parece, portanto, essa pode não ser a melhor alternativa.fn
  2. Primeira amostra sem casos de substituição da sua amostra, concatená-los para a amostra e, em seguida, amostra sem casos de substituição . Isso é chamado de inicialização de espelho .Nn n
  3. Primeira amostra com casos de substituição da sua amostra e, em seguida, amostras casos sem substituição . Isso é chamado de inicialização de superpopulação .Nn

Para saber mais sobre esses métodos, você pode verificar os seguintes recursos:

Davison, AC & Hinkley, DV (2009). Métodos de inicialização e sua aplicação. Nova York, NY: Cambridge University Press.

Sitter, RR (1992). Um procedimento de reamostragem para dados complexos de pesquisa. Jornal da Associação Estatística Americana, 87 (419), 755-765.

Sitter, RR (1992). Comparando três métodos de autoinicialização para dados da pesquisa. Canadian Journal of Statistics, 20 (2), 135-154.

Tim
fonte
Muito obrigado pela resposta e pelas referências. Acho que não estava muito longe da resposta e certamente me beneficiará muito das referências.
Inox
@Inox sim você estava muito perto :)
Tim