O que é amostragem importante?

Respostas:

15

A amostragem por importância é uma forma de amostragem de uma distribuição diferente da distribuição de interesse , para obter mais facilmente estimativas melhores de um parâmetro a partir da distribuição de interesse. Normalmente, isso fornecerá estimativas do parâmetro com uma variação menor do que seria obtido por amostragem diretamente da distribuição original com o mesmo tamanho de amostra.

É aplicado em vários contextos. Em geral, a amostragem de diferentes distribuições permite que mais amostras sejam coletadas em uma parte da distribuição de interesse ditada pela aplicação (região importante).

Um exemplo pode ser que você deseja ter uma amostra que inclua mais amostras das caudas da distribuição do que a amostra aleatória pura da distribuição de interesse forneceria.

O artigo da wikipedia que eu vi sobre esse assunto é muito abstrato. É melhor olhar para vários exemplos específicos. No entanto, inclui links para aplicativos interessantes, como as redes bayesianas.

Um exemplo de amostragem importante nas décadas de 1940 e 1950 é uma técnica de redução de variância (uma forma do método de Monte Carlo). Veja, por exemplo, o livro Monte Carlo Methods, de Hammersley e Handscomb, publicado como Methuen Monograph / Chapman and Hall em 1964 e reimpresso em 1966 e posteriormente por outros editores. A seção 5.4 do livro aborda Amostragem de importância.

Michael R. Chernick
fonte
2
Para acrescentar a isto: Em RL você está geralmente à amostragem importância para a política: por exemplo, amostragem ações de uma política de exploração em vez da política real que você realmente quer da amostra
DaVinci
3
Essa resposta começa bem explicando a importância da amostragem , mas fiquei desapontado ao descobrir que ela nunca responde à pergunta sobre o que é a amostragem de importância : como funciona?
whuber
@whuber Meu objetivo aqui era explicar o conceito para um OP confuso e apontá-lo para alguma literatura. É um tópico importante e é usado em aplicativos aparentemente diferentes. Outros podem explicar melhor os detalhes em termos simples do que eu. Eu sei que quando você decide responder uma pergunta, você fica louco e fornece bons gráficos, passa por detalhes técnicos em linguagem simples. Esses posts quase sempre satisfazem a comunidade com sua clareza e abrangência e, ouso dizer, também satisfaz o OP pelo menos em parte. Talvez algumas frases com equações sejam suficientes, como você sugere.
Michael R. Chernick 3/17/17
Talvez seja melhor para a comunidade responder à pergunta em vez de apenas apontar para outras fontes ou até fornecer links. Apenas senti que o que fiz foi adequado e o OP que admite ser um novato em estatística deve se esforçar primeiro.
Michael R. Chernick
5
Você tem um ponto. Eu me pergunto, no entanto, se seria possível em apenas uma ou duas frases - sem matemática, sem gráficos, quase nenhum trabalho extra - fornecer uma resposta para a pergunta, conforme solicitado. Nesse caso, a descrição precisaria enfatizar que se está estimando a expectativa (não apenas qualquer "parâmetro"), e talvez apontar que, como a expectativa soma um produto de valores e probabilidades, obtém-se o mesmo resultado alterando as probabilidades ( àquelas de uma distribuição fácil de amostrar) e ajustando os valores para compensar isso.
whuber
33

A amostragem por importância é um método de simulação ou Monte Carlo destinado à aproximação de integrais. O termo "amostragem" é um tanto confuso, pois não pretende fornecer amostras de uma determinada distribuição.

A intuição por trás da amostragem de importância é que uma integral bem definida, como pode ser expresso como uma expectativa para uma ampla gama de distribuições de probabilidade: I = E f [ H ( X ) ] = X H ( x ) f ( x )

I=Xh(x)dx
onde f denota a densidade de uma distribuição de probabilidade e H é determinado por h e f . (Observe que H ( ) geralmente é diferente de h ( ) .)De fato, a escolha H ( x ) = h ( x )
I=Ef[H(X)]=XH(x)f(x)dx
fHhfH()h() leva às igualidadesH(x)f(x)=h(x)eI=Ef[H(X)]-sob algumas restrições no suporte def, ou seja,f(x)>0quandoh(x)0-
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]ff(x)>0h(x)0. Portanto, como apontado por W. Huber em seu comentário, não há unicidade na representação de uma integral como expectativa, mas, ao contrário, uma matriz infinita de tais representações, algumas das quais são melhores que outras, uma vez que um critério para comparar eles é adotado. Por exemplo, Michael Chernick menciona a escolha de para reduzir a variação do estimador.f

Uma vez que essa propriedade elementar é entendida, a implementação da idéia é confiar na Lei dos Grandes Números, como em outros métodos de Monte Carlo, ou seja, simular [por meio de um gerador pseudo-aleatório] uma amostra de iid distribuído a partir de f e para usar a aproximação I = 1(x1,,xn)fque

I^=1ni=1nH(xi)
  1. é um estimador imparcial de I
  2. converge quase certamente para I

Dependendo da escolha da distribuição , o estimador acima I pode ou não ter uma variância finita. No entanto, sempre existem opções de f que permitem uma variação finita e até mesmo uma variação arbitrariamente pequena (embora essas escolhas possam estar indisponíveis na prática). E também existem opções de f que fazem a amostragem importância estimador I muito pobre aproximação das I . Isso inclui todas as opções em que a variação fica infinita, embora um artigo recente de Chatterjee e Diaconis estude como comparar amostradores de importância com variação infinita. A foto abaixo é tirada defI^ffI^Iminha discussão do artigo no blog e ilustra a fraca convergência de estimadores de variância infinita.

Importance sampling with importance distribution an Exp(1) distribution target distribution an Exp(1/10) distribution, and function of interest $h(x)=x$. The true value of the integral is $10$.

Amostragem de importância com distribuição de importância, distribuição de destino Exp (1), distribuição de Exp (1/10) e função de interesse . O verdadeiro valor da integral é 10 .h(x)=x10

[O texto a seguir é reproduzido em nosso livro Monte Carlo Statistical Methods .]

O exemplo a seguir de Ripley (1987) mostra por que realmente pode ser pago para gerar a partir de uma distribuição diferente da distribuição (original) aparece na integral X h ( x ) f ( x )f de interesse ou, em outras palavras, modificar a representação de uma integral como uma expectativa em relação a uma dada densidade.

Xh(x)f(x)dx

Exemplo (probabilidade da cauda de Cauchy) Suponha que a quantidade de interesse seja a probabilidade, , que uma variável Cauchy C ( 0 , 1 ) seja maior que 2 , ou seja, p = + 2pC(0,1)2 Quando p é avaliada através da média empírica p 1 = 1

p=2+1π(1+x2)dx.
p de uma amostra iid X 1 ,, X m
p^1=1mj=1mIXj>2
X1,,Xm , a variância desse estimador é p ( 1 - p ) / m (igual a 0,127 / m, pois p = 0,15 ).C(0,1)p(1p)/m0.127/mp=0.15

Esta variação pode ser reduzido tendo em conta a natureza simétrica de , uma vez que a média P 2 = 1C(0,1)

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2)XU[0,2]. An alternative method of evaluation for p is therefore
p^3=121mj=1mh(Uj)
for UjU[0,2]. The variance of p^3 is (E[h2]E[h]2)/m and an integration by parts shows that it is equal to 0.0285/m. Moreover, since p can be written as
p=01/2y2π(1+y2)dy,
this integral can also be seen as the expectation of 14h(Y)=1/2π(1+Y2) against the uniform distribution on [0,1/2] and another evaluation of p is
p^4=14mj=1mh(Yj)
when YjU[0,1/2]. The same integration by parts shows that the variance of p^4 is then 0.95104/m.

Compared with p^1, the reduction in variance brought by p^4 is of order 103, which implies, in particular, that this evaluation requires 100032 times fewer simulations than p^1 to achieve the same precision.

Xi'an
fonte
5
Thank you @Xi' an for going to the trouble of illustrating importance sampling in a way that everyone can appreciate and I think more than satisfies Bill Huber's request. +1
Michael R. Chernick
2
I want to note that initially this post was put on hold and thanks to the contributions of several people. We have come up with an informative thread.
Michael R. Chernick
5
Christian, I want to extend my thanks and express a feeling of privilege that you are actively sharing such excellent material with us.
whuber
4
I just want to add a thank you to Xi'an who was kind enough to make a few edits to improve my answer even though he gave one of his own.
Michael R. Chernick
3
This has to be one of the best posts on stats.stackexchange. Thanks for sharing!
dohmatob