Seleção adaptativa do número de replicações de inicialização

8

Como na maioria dos métodos de Monte Carlo, a regra para inicialização é que, quanto maior o número de repetições, menor o erro de Monte Carlo. Mas há retornos decrescentes, portanto, não faz sentido executar o maior número possível de réplicas.

Suponha que você deseje garantir que sua estimativa θ^ de uma certa quantidade θ esteja dentro de ε da estimativa θ~ que você obteria com infinitas repetições. Por exemplo, convém ter certeza razoável de que as duas primeiras casas decimais de θ^ não estão erradas devido ao erro de Monte Carlo, caso em que ε=.005 . Existe um procedimento adaptável que você pode usar, no qual continua gerando réplicas de autoinicialização, verificando θ^ e parando de acordo com uma regra que, digamos, |θ^θ~|<ε com 95% de confiança?

NB Embora as respostas existentes sejam úteis, eu ainda gostaria de ver um esquema para controlar a probabilidade de que |θ^θ~|<ε .

Kodiologist
fonte
Oponho-me a chamar o método de Monte Carlo de inicialização. Embora nem sempre sejam necessários métodos de Monte Carlo para obter boas aproximações às estimativas de autoinicialização, porque a enumeração é inviável.
Michael R. Chernick
Não sei exatamente o que você está perguntando. Mas muitas vezes é difícil saber com antecedência quantas réplicas de autoinicialização são necessárias para fazer a aproximação de Monte Carlo à estimativa de autoinicialização próxima à estimativa real de autoinicialização. Sugeri fazer algo parecido com o que você está sugerindo. Isso seria adicionar replicações até que a alteração na estimativa seja pequena. Isso seria uma indicação de convergência.
Michael R. Chernick
@MichaelChernick "Não sei exatamente o que você está perguntando." - O que posso fazer para ajudar a esclarecer isso?
Kodiologist
Quando você fala sobre seleção adaptativa, quer dizer o que estou sugerindo? Isso é continuar a levar as replicações de bootstrap até que duas estimativas sucessivas estejam muito próximas (digamos que a diferença absoluta seja menor que um especificado ). ϵ
Michael R. Chernick
@MichaelChernick Eu não acho que olhar diferenças entre sucessivos s seria suficiente para obter . Mas eu não tenho certeza. θ~|θ^θ~|<ε
Kodiologist

Respostas:

3

Se a estimativa de nas réplicas é normalmente distribuída, acho que você pode estimar o erro em partir do desvio padrão :θσ^θ^σ

σ^=σn

então você pode simplesmente parar quando .1.96σ^<ϵ

Ou entendi mal a pergunta? Ou você quer uma resposta sem assumir a normalidade e na presença de autocorrelações significativas?

fabiob
fonte
Seria bom não ter que assumir a normalidade, mas certamente podemos assumir que as réplicas de autoinicialização são selecionadas independentemente, se esse é o tipo de dependência que você quer dizer com autocorrelação.
Kodiologist
Se não assumirmos a normalidade, porém, nem podemos ter certeza de que a média é uma boa estimativa para teta. Acredito que precisamos de mais hipóteses de propor uma solução ...
fabiob
Para ser claro, que coisa exatamente você supõe ser normal? Seu texto de resposta diz "as réplicas são normalmente distribuídas", mas cada réplica é uma amostra do mesmo tamanho da amostra original. Não sei o que significaria que uma coleção de amostras fosse normalmente distribuída.
Kodiologist
Estou assumindo ser normal a distribuição de a estimativa da quantidade em que você está interessado, que você executa na réplica . Vou editar minha formulação que não era clara. θii
Fabiob
3
finalmente observe como minha resposta e a de Michael são as mesmas, se você substituir C-> e B -> , o que sugere uma maneira de "determinar" C. Você pode assumir a variação de , ou o dobro disso, se Você quer ser conservador. você concorda (ou acha que estou perdendo alguma coisa)? σ2nθi
Fabiob 6/06
2

Nas páginas 113-114 da primeira edição do meu livro Métodos de Bootstrap: Guia do Profissional Wiley (1999) discuto métodos para determinar quantas replicações de bootstrap serão necessárias ao usar a aproximação de Monte Carlo.

Entro em detalhes sobre um procedimento devido a Hall descrito em seu livro The Bootstrap and Edgeworth Expansion, Springer-Verlag (1992). Ele mostra que quando o tamanho da amostra n é grande e o número de replicações de autoinicialização B é grande, a variação da estimativa de autoinicialização é C / B, em que C é uma constante desconhecida que não depende de n ou B. Portanto, se você pode determinar C ou vinculado acima, você pode determinar um valor para B que reduza o erro da estimativa ao especificado na sua pergunta.ϵ

Descrevo uma situação em que C = 1/4. Mas se você não tem uma boa idéia do valor C, pode recorrer à abordagem que descreve em que ponto B = 500 diz e depois dobrá-lo para 1000 e comparar a diferença nessas estimativas de inicialização. Este procedimento pode ser repetido até que a diferença seja tão pequena quanto você deseja.

Outra idéia é dada por Efron no artigo "Melhores intervalos de confiança de inicialização (com discussão)", (1987) Journal of the American Statistical Association vol. 82 pp 171-200.

Michael R. Chernick
fonte
Ah, por "duas estimativas sucessivas", pensei que você quisesse dizer algo como a estimativa de da replicação 1.002 versus a estimativa de da replicação 1.003. Comparar a estimativa de todas as 500 primeiras réplicas com a das 500 primeiras ou com as 1.000 primeiras é mais intuitivo. θθ
Kodiologist
Eu já vi Efron (1987) antes, mas qual parte trata da questão de escolher o número de replicações de inicialização?
Kodiologist
No meu livro, mencionei que em Efron (1967) e Booth e Sarkar (1998) eles apontam que após um número (grande) de iterações em particular, o erro na estimativa de bootstrap é dominado pelo erro devido ao uso da distribuição empírica (como uma aproximação à distribuição da população) torna pequeno o erro na aproximação de Monte Carlo. Não citei a página ou páginas em particular em que isso é discutido.
Michael R. Chernick
No comentário acima, eu quis dizer Efron (1987).
Michael R. Chernick 16/05/19