As técnicas de otimização são mapeadas para as técnicas de amostragem?

18

De qualquer algoritmo de amostragem genérico, pode-se derivar um algoritmo de otimização.

De fato, para maximizar uma função arbitrária , basta extrair amostras de . Para pequeno o suficiente, essas amostras ficarão próximas do máximo global (ou máximo local na prática) da função .f:xf(x)gef/TTf

Por "amostragem", quero dizer, extrair uma amostra pseudo-aleatória de uma distribuição, dada uma função de probabilidade de log conhecida até uma constante. Por exemplo, amostragem MCMC, Gibbs, Beam Sampling, etc. Por "otimização", quero dizer a tentativa de encontrar parâmetros que maximizem o valor de uma determinada função.


O inverso é possível? Dada uma heurística para encontrar o máximo de uma função ou expressão combinatória, podemos extrair um procedimento de amostragem eficiente?

O HMC, por exemplo, parece tirar proveito das informações de gradiente. Podemos construir um procedimento de amostragem que tire proveito de uma aproximação do Hessian do tipo BFGS? (editar: aparentemente sim: http://papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf ) Podemos usar o MCTS em problemas combinatórios, podemos traduzir isso em um procedimento de amostragem?

Contexto: uma dificuldade na amostragem costuma ser que a maior parte da massa da distribuição de probabilidade se encontra dentro de uma região muito pequena. Existem técnicas interessantes para encontrar essas regiões, mas elas não se traduzem diretamente em procedimentos de amostragem imparciais.


Edit: Agora tenho uma sensação persistente de que a resposta a essa pergunta é um pouco equivalente à igualdade de classes de complexidade #P e NP, tornando a resposta um provável "não". Explica por que toda técnica de amostragem produz uma técnica de otimização, mas não vice-versa.

Arthur B.
fonte
Embora eu ache que tenho um entendimento convencional da maioria das palavras desta pergunta, não sei ao certo o que isso significa. Você poderia indicar um pouco mais precisamente o que você quer dizer com "amostragem" e o que exatamente seria "otimizado"? Você parece assumir implicitamente que seus leitores têm em mente um cenário específico em que uma "distribuição" (ou família dela?) Está envolvida e na qual um objetivo específico é assumido, mas só se pode adivinhar o que você realmente pretende quando faz declarações gerais como as que aparecem no último parágrafo.
whuber
Por "amostragem", quero dizer, extrair uma amostra pseudo-aleatória de uma distribuição, dada uma função de probabilidade de log conhecida até uma constante. Por exemplo, amostragem MCMC, Gibbs, Beam Sampling, etc. Por "otimização", quero dizer a tentativa de encontrar parâmetros que maximizem o valor de uma determinada função. Por exemplo, descida de gradiente, o algoritmo simplex, recozimento simulado são técnicas de otimização.
Arthur B.
Existe um mapeamento natural entre o recozimento simulado e a amostragem MCMC. Há um mapeamento menos direto entre o HMC e a descida do gradiente (se você for apertar os olhos). Minha pergunta é se isso pode ser mais sistemático. Uma dificuldade na amostragem é muitas vezes que a maior parte da massa da distribuição de probabilidade se encontra dentro de uma região muito pequena. Existem técnicas interessantes para encontrar essa região, mas elas não se traduzem diretamente em procedimentos de amostragem imparciais.
Arthur B.
Edite sua pergunta para incluir esses esclarecimentos. Isso é crucial porque seu uso (um tanto especializado) da palavra "amostragem", embora apropriado em seu contexto, difere do que muitos leitores podem entender. Além disso, sua explicação sobre "otimização", embora correta, não parece ser útil para tornar seu significado suficientemente preciso aqui: caracterizar o que é a "função fornecida" e como ela pode estar relacionada à "amostragem" seria adições úteis.
whuber
É melhor agora?
Arthur B.

Respostas:

0

vocêvocênEuf[0 0,1]F-1(você)F

Sid
fonte