Metodologia de inicialização. Por que reamostrar "com substituição" em vez de subamostragem aleatória?

11

O método bootstrap tem visto uma grande difusão nos últimos anos, eu também o uso muito, especialmente porque o raciocínio por trás é bastante intuitivo.

Mas isso é uma coisa que eu não entendo. Por que a Efron optou por realizar uma nova amostra com substituição, em vez de simplesmente subamostragem, incluindo ou excluindo aleatoriamente observações únicas?

Penso que a subamostragem aleatória tem uma qualidade muito boa, que representa idealmente a situação da vida real em que as observações que temos em nosso estudo são um subconjunto de uma população hipotética. Não vejo a vantagem de ter multiplicado as observações durante a reamostragem. Em um contexto real, nenhuma observação é semelhante a outra, especialmente para situações multivariadas complexas.

Bakaburg
fonte
3
reamostragem com reamostragem é feita porque é a coisa certa a se fazer, dado o modelo. O modelo por trás do bootstrap é usar a máxima probabilidade não paramétrica para estimar a função de distribuição cumulativa e, em seguida, amostrar observações independentes da função de distribuição cumulativa estimada. Pense nisso --- algoritmicamente, que é obtido por amostragem por substituição da amostra original.
Kjetil b halvorsen

Respostas:

10

Uma maneira de entender essa escolha é pensar na amostra em questão como a melhor representação que você tem da população subjacente. Talvez você não tenha toda a população para colher amostras, mas você tem essa representação específica da população. Uma amostragem verdadeiramente aleatória dessa representação da população significa que você deve amostrar com substituição; caso contrário, sua amostragem posterior dependerá dos resultados da amostragem inicial. A presença de um caso repetido em uma amostra de bootstrap específica representa membros da população subjacente que possuem características próximas às daquele caso repetido específico. As abordagens deixar de fora ou deixar de fora, como você sugere, também podem ser usadas, mas isso é validação cruzada em vez de inicialização.

Acho que isso coloca em outras palavras o comentário de @kjetil_b_halvorsen

EdM
fonte
Eu entendo o ponto. Tornar as observações individuais em uma amostra de autoinicialização independentes uma da outra. Na literatura existem métodos baseados em subamostragem, veja Politis, Romano, Wolf. O uso de um subconjunto fixo m de n, escolhido sem substituição. Como eles evitam a armadilha que você disse antes? No caso deles, novamente, não entendo por que eles usam uma subamostra de tamanho fixo em vez de uma subamostra aleatória.
Bakaburg 7/09/15
2
Os métodos de subamostragem estão tentando realizar algo diferente do bootstrap. Esses métodos estão buscando selecionar subconjuntos aleatórios da amostra de dados, em vez de tentar emular uma nova amostra aleatória da população subjacente . Não é que um ou outro esteja errado; são abordagens diferentes que têm pontos fortes e fracos particulares.
EdM
Talvez eu deva fazer uma nova pergunta sobre a diferença entre os dois métodos nas estatísticas de inferência. obrigado!
Bakaburg 7/09/15
O @Bakaburg vê esta pergunta para uma excelente introdução na literatura sobre bootstrapping versus validação cruzada (que é um tipo específico de subamostragem).
EDM
@Bakaburg O método bootstrap está simulando o desenho independente repetido de amostras aleatórias de tamanho n (não um subconjunto menor que n) de uma população maior. Isso significa que é concebível que uma amostra aleatória contenha um grande número de valores extremos pequenos ou grandes da população pai, que geralmente são sub-representados em nossa amostra original. Como EdM apontou, a reamostragem com substituição permite que uma única observação de amostra "represente" várias observações na população que possuem valores semelhantes - é uma maneira de obter uma aproximação suave da distribuição da população.
RobertF 4/18