Podemos usar amostras de bootstrap menores que a amostra original?

12

Eu quero usar o bootstrapping para estimar intervalos de confiança para parâmetros estimados de um conjunto de dados de painel com N = 250 empresas e T = 50 meses. A estimativa de parâmetros é computacionalmente cara (poucos dias de cálculo) devido ao uso de filtragem de Kalman e estimativa não linear complexa. Portanto, desenhar (com substituição) B (em centenas ou mais) amostras de M = N = 250 firmas da amostra original e estimar os parâmetros B vezes é computacionalmente inviável, mesmo que este seja o método básico para o bootstrap.

Por isso, estou pensando em usar M menor (por exemplo, 10) para amostras de bootstrap (em vez do tamanho total de N = 250), desenhado aleatoriamente com a substituição de empresas originais, e depois escalar a matriz de covariância estimada pelo bootstrap dos parâmetros do modelo com (no exemplo acima, em 1/25) para calcular a matriz de covariância para os parâmetros do modelo estimados na amostra completa.1NM

Os intervalos de confiança desejados podem ser aproximados com base na suposição de normalidade ou empíricos para amostras menores dimensionadas usando um procedimento semelhante (por exemplo, reduzidas por um fator de .1NM

Essa solução alternativa faz sentido? Existem resultados teóricos para justificar isso? Alguma alternativa para enfrentar esse desafio?

Hazhir
fonte

Respostas:

4

Esta pergunta foi feita há muito tempo, mas estou postando uma resposta caso alguém a descubra no futuro. Em resumo, a resposta é afirmativa: você pode fazer isso em várias configurações e está justificado em corrigir a alteração no tamanho da amostra pelo . Essa abordagem é geralmente chamada de out of boostrap e funciona na maioria das configurações que o bootstrap `` tradicional '' 'faz, assim como em algumas configurações nas quais não.MNMN

O motivo é que muitos argumentos de consistência de autoinicialização utilizam estimadores do formato , em que são variáveis ​​aleatórias e é um parâmetro de a distribuição subjacente. Por exemplo, para a média da amostra, e .1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

Muitas provas de consistência de auto-inicialização argumentam que, como , dada uma amostra finita e estimativa de pontos associada , onde o é extraído da verdadeira distribuição subjacente e o é extraído com a substituição de .N{x1,,xN}μ N = T N ( x 1 , ... , x n ) μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

No entanto, também podemos usar amostras mais curtas do comprimento e considerar o estimador Acontece que, como , o estimador ( ) tem a mesma distribuição limitadora que a anterior, na maioria das configurações em que ( ) mantém e alguns onde não. Nesse caso, ( ) e ( ) têm a mesma distribuição limitadora, motivando o fator de correção , por exemplo, no desvio padrão da amostra.M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

Esses argumentos são todos assintóticos e mantêm apenas o limite . Para que isso funcione, é importante não escolher muito pequeno. Há alguma teoria (por exemplo, Bickel e Sakov abaixo) sobre como escolher o ideal em função de para obter os melhores resultados teóricos, mas, no seu caso, os recursos computacionais podem ser o fator decisivo.M,NM MN

Por alguma intuição: em muitos casos, temos como , de modo que pode ser pensado um pouco como um de de bootstrap com e (estou usando minúsculas para evitar confusão notação ) Dessa maneira, emular a distribuição de ( ) usando um bootstrap out of com é algo mais `` certo '' do que o tradicional ( out ofμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=MNM<NNN3MNM<NNN) tipo. Um bônus adicional no seu caso é que é menos computacionalmente caro avaliar.

Como você mencionou, Politis e Romano são o artigo principal. Acho Bickel et al (1997) abaixo de uma boa visão geral do bootstrap out of também.MN

Fontes :

PJ Bickel, F. Goetze, WR van Zwet. 1997. Reamostrando menos de observações: ganhos, perdas e soluções para perdas. Statistica Sinica.n

PJ Bickel, A Sakov. 2008. Sobre a escolha de no ouf de auto-inicialização e de confiança limites para extrema. Statistica Sinica.mmn

aph416
fonte
3

Depois de ler mais sobre o assunto, parece que existe uma teoria estabelecida em "subamostragem" que permite fazer esse tipo de estimativa do intervalo de confiança. A referência principal é "Politis, DN; Romano, JP (1994). Grandes regiões de confiança de amostras baseadas em subamostras sob suposições mínimas. Annals of Statistics, 22, 2031-2050".

A idéia é desenhar amostras do tamanho M <N ", sem substituição" para cada amostra (mas com substituição entre diferentes amostras do tamanho B), a partir dos N pontos de dados iniciais (séries no meu caso) e estimar o intervalo de confiança de parâmetro de interesse usando essas amostras e o método comum de inicialização. Em seguida, dimensione o intervalo de confiança com base na taxa de alteração na variação da distribuição subjacente do parâmetro com alterações em M. Essa taxa é de 1 / M em muitas configurações comuns, mas pode ser estimada empiricamente se repetirmos o procedimento com alguns M diferentes valores e observe as alterações no tamanho dos intervalos inter-percentis.

Hazhir
fonte