Estou tentando aprender um aprendizado reforçado e esse tópico é realmente confuso para mim. Fiz uma introdução às estatísticas, mas simplesmente não conseguia entender esse tópico intuitivamente.
fonte
Estou tentando aprender um aprendizado reforçado e esse tópico é realmente confuso para mim. Fiz uma introdução às estatísticas, mas simplesmente não conseguia entender esse tópico intuitivamente.
A amostragem por importância é uma forma de amostragem de uma distribuição diferente da distribuição de interesse , para obter mais facilmente estimativas melhores de um parâmetro a partir da distribuição de interesse. Normalmente, isso fornecerá estimativas do parâmetro com uma variação menor do que seria obtido por amostragem diretamente da distribuição original com o mesmo tamanho de amostra.
É aplicado em vários contextos. Em geral, a amostragem de diferentes distribuições permite que mais amostras sejam coletadas em uma parte da distribuição de interesse ditada pela aplicação (região importante).
Um exemplo pode ser que você deseja ter uma amostra que inclua mais amostras das caudas da distribuição do que a amostra aleatória pura da distribuição de interesse forneceria.
O artigo da wikipedia que eu vi sobre esse assunto é muito abstrato. É melhor olhar para vários exemplos específicos. No entanto, inclui links para aplicativos interessantes, como as redes bayesianas.
Um exemplo de amostragem importante nas décadas de 1940 e 1950 é uma técnica de redução de variância (uma forma do método de Monte Carlo). Veja, por exemplo, o livro Monte Carlo Methods, de Hammersley e Handscomb, publicado como Methuen Monograph / Chapman and Hall em 1964 e reimpresso em 1966 e posteriormente por outros editores. A seção 5.4 do livro aborda Amostragem de importância.
A amostragem por importância é um método de simulação ou Monte Carlo destinado à aproximação de integrais. O termo "amostragem" é um tanto confuso, pois não pretende fornecer amostras de uma determinada distribuição.
A intuição por trás da amostragem de importância é que uma integral bem definida, como pode ser expresso como uma expectativa para uma ampla gama de distribuições de probabilidade: I = E f [ H ( X ) ] = ∫ X H ( x ) f ( x )
Uma vez que essa propriedade elementar é entendida, a implementação da idéia é confiar na Lei dos Grandes Números, como em outros métodos de Monte Carlo, ou seja, simular [por meio de um gerador pseudo-aleatório] uma amostra de iid distribuído a partir de f e para usar a aproximação I = 1(x1,…,xn) f que
Dependendo da escolha da distribuição , o estimador acima I pode ou não ter uma variância finita. No entanto, sempre existem opções de f que permitem uma variação finita e até mesmo uma variação arbitrariamente pequena (embora essas escolhas possam estar indisponíveis na prática). E também existem opções de f que fazem a amostragem importância estimador I muito pobre aproximação das I . Isso inclui todas as opções em que a variação fica infinita, embora um artigo recente de Chatterjee e Diaconis estude como comparar amostradores de importância com variação infinita. A foto abaixo é tirada def I^ f f I^ I minha discussão do artigo no blog e ilustra a fraca convergência de estimadores de variância infinita.
[O texto a seguir é reproduzido em nosso livro Monte Carlo Statistical Methods .]
O exemplo a seguir de Ripley (1987) mostra por que realmente pode ser pago para gerar a partir de uma distribuição diferente da distribuição (original) aparece na integral ∫ X h ( x ) f ( x )f de interesse ou, em outras palavras, modificar a representação de uma integral como uma expectativa em relação a uma dada densidade.
Exemplo (probabilidade da cauda de Cauchy) Suponha que a quantidade de interesse seja a probabilidade, , que uma variável Cauchy C ( 0 , 1 ) seja maior que 2 , ou seja, p = ∫ + ∞ 2p C(0,1) 2
Quando p é avaliada através da média empírica
p 1 = 1
Esta variação pode ser reduzido tendo em conta a natureza simétrica de , uma vez que a média P 2 = 1C(0,1)
Compared withp^1 , the reduction in variance brought by p^4
is of order 10−3 , which implies, in
particular, that this evaluation requires
1000−−−−√≈32 times fewer simulations than p^1
to achieve the same precision. ▶
fonte