O que é Thompson Sampling em termos de leigo?

14

Não consigo entender a Thompson Sampling e como ela funciona. Eu estava lendo sobre o Multi Arm Bandit e depois de ler o Algoritmo de limite superior de confiança, muitos textos sugeriam que o Thompson Sampling tivesse um desempenho melhor que o UCB. O que é Thompson Sampling, em termos leigos ou simples?

Sinta-se à vontade para fornecer artigos de referência para entender melhor.

dejavu
fonte

Respostas:

9

Vou tentar dar uma explicação sem nenhuma matemática. Parte desta resposta é repetida a partir de alguns pontos que fiz em resposta a outra pergunta sobre os problemas do MAB .


O trade-off estratégico em problemas de bandidos de múltiplos braços: Em problemas de bandidos de vários braços, o jogador joga um "bandido" a cada rodada e tenta maximizar seu retorno total esperado ao longo de um determinado número de rodadas. O retorno esperado de cada um dos bandidos é descrito por alguns parâmetros desconhecidos no problema, e, à medida que observamos mais resultados em cada rodada, obtemos mais informações sobre esses parâmetros desconhecidos e, portanto, sobre o retorno esperado de cada um dos bandidos. . Em cada rodada do jogo (exceto a última), o problema do MAB envolve uma troca estratégica pelo jogador entre dois objetivos:

  • Recompensas imediatas: em cada rodada, ele gostaria de escolher uma distribuição que lhe dê uma alta recompensa esperada nessa rodada, o que implica uma preferência por distribuições que ele (atualmente) deduz para ter uma alta recompensa média;

  • Recompensas futuras (afetadas pelo ganho de informações): por outro lado, ele deseja refinar seu conhecimento das verdadeiras recompensas esperadas, obtendo mais informações sobre as distribuições (especialmente aquelas que ele não jogou tanto quanto as outras), para poder melhorar suas escolhas nas próximas rodadas.

A importância relativa dessas duas coisas determinará o compromisso, e essa importância relativa é afetada por vários fatores. Por exemplo, se houver apenas um pequeno número de rodadas restantes no problema, a inferência para ensaios futuros será relativamente menos valiosa, enquanto que se houver um grande número de rodadas restantes, a inferência para recompensas futuras será relativamente mais valiosa. Portanto, o jogador precisa considerar o quanto ele quer se concentrar em maximizar as recompensas imediatas na rodada atual e quanto ele quer se desviar disso, para aprender mais sobre os parâmetros desconhecidos que determinam a recompensa esperada de cada um dos bandidos.


Amostragem de Thompson: A idéia básica da amostragem de Thompson é que, a cada rodada, pegamos nosso conhecimento existente das máquinas, que está na forma de uma crença posterior sobre os parâmetros desconhecidos e "amostramos" os parâmetros dessa distribuição posterior. Este parâmetro amostrado gera um conjunto de recompensas esperadas para cada máquina, e agora apostamos na que possui o maior retorno esperado, sob esse parâmetro amostrado.

Prima facie , o esquema de amostragem Thompson parece envolver uma tentativa de maximizar o retorno esperado imediato em cada rodada (já que envolve essa etapa de maximização após a amostragem do parâmetro). No entanto, por envolver amostragem aleatória do parâmetro a partir do posterior, o esquema envolve um implícitovariação da maximização da recompensa atual, em comparação à busca por mais informações. Na maioria das vezes, obteremos um parâmetro "amostra" que fica em algum lugar na parte principal do posterior, e a escolha da máquina aproximará aproximadamente a maximização da recompensa imediata. No entanto, algumas vezes amostraremos aleatoriamente um valor de parâmetro que está muito distante da distribuição posterior e, nesse caso, acabaremos escolhendo uma máquina que não maximize a recompensa imediata - ou seja, isso constituirá mais uma "pesquisa" "para ajudar com recompensas futuras.

O esquema de Thompson também tem a propriedade legal de que tendemos a diminuir nossa "pesquisa" à medida que obtemos mais informações, e isso imita o trade-off estratégico desejável no problema, onde queremos nos concentrar menos nas pesquisas à medida que obtemos mais informações. À medida que jogamos mais e mais rodadas e obtemos mais e mais dados, o posterior converge mais perto dos valores reais dos parâmetros e, assim, a "amostragem" aleatória no esquema Thompson fica mais compactada em torno dos valores dos parâmetros que levarão à maximização do valor do parâmetro. recompensa imediata. Portanto, existe uma tendência implícita desse esquema para ser mais "orientado à pesquisa" no início, com poucas informações, e menos "orientado à pesquisa" mais tarde, quando houver muitos dados.

Agora, tendo dito isso, uma desvantagem clara do esquema de amostragem Thompson é que ele não leva em consideração o número de rodadas restantes no problema do MAB. Às vezes, esse esquema é formulado com base em um jogo com rodadas infinitas e, nesse caso, isso não é problema. No entanto, nos problemas do MAB com rodadas finitas, é preferível levar em consideração o número de rodadas restantes para diminuir a "pesquisa" à medida que o número de rodadas futuras diminui. (E, em particular, a melhor jogada na última rodada é ignorar as pesquisas completamente e apenas apostar no bandido com o maior retorno posterior esperado.) O esquema de Thompson não faz isso, portanto, ele joga de maneira finita de uma maneira isso é claramente sub-ideal em certos casos.

Restabelecer Monica
fonte
1
Eu gostaria de poder dar a esta resposta vários polegares para cima. Eu provavelmente acrescentaria como atualizaria os posteriores - por exemplo, se os posteriores fossem representados como distribuições normais - como são calculadas as atualizações para a média e o desvio padrão dos posteriores. Digo isso porque não me conheço #
Mellow
5

Vou tentar e espero que você goste! Existem algumas fórmulas abaixo que podem assustá-lo. Espero que não, porque farei o possível para explicá-las da maneira mais simples possível.

Estas são as duas fórmulas:

  • P(r|θ,uma,x)
  • P(θ|D)

TL; DR

Thompson Sampling permite

  1. Escolha um parâmetro aleatório de modelo dentre todos os parâmetros que você acha que são possíveis.
  2. Aja uma vez de acordo com esse parâmetro de modelo específico.
  3. Observe a recompensa que você recebe com esse parâmetro de modelo específico.
  4. Aprenda com essa nova experiência e atualize sua crença sobre os possíveis parâmetros do modelo.

Probabilidade??

rumax

E aquele círculo estranho?

θθθ, você sabe como as ações de contexto + se relacionam à recompensa e é fácil agir de maneira ideal.

Então, como conhecemos esses parâmetros do modelo para que eu possa obter a recompensa máxima?

θvocê pode querer fazer uma exploração extra. Se você tem certeza dos nossos parâmetros de modeloθ, você também tem certeza de qual ação executar. Isso é conhecido como trade-off de exploração versus exploração.

Você não disse nada sobre esse traseiro

A chave para esse comportamento ideal é a sua (des) certeza sobre os parâmetros do modelo θ. E o posterior diz exatamente isso: dadas todas as recompensas anteriores que recebemos de ações anteriores em contextos anteriores, quanto você sabe sobreθ. Por exemplo, se você nunca esteve fora, não sabe o quão infeliz fica quando a chuva cai sobre sua cabeça. Em outras palavras, você está muito incerto sobre o parâmetro do modelo infeliz quando chove na cabeça. Se você esteve sob chuva algumas vezes, com e sem guarda-chuva, pode começar a aprender algo sobre esse parâmetro obscuro do modelo.

Agora, o que a Thomson Sampling sugere fazer com todas essas incertezas?

A Thomson Sampling sugere algo muito simples: basta escolher um parâmetro de modelo aleatório no posterior, executar uma ação e observar o que acontece. Por exemplo, quando você nunca esteve fora antes, o parâmetro infelicidade quando chove na cabeça pode ser qualquer coisa. Então, apenas escolhemos um, assumimos que ficamos realmente infelizes quando a chuva cai sobre nossa cabeça. Vemos que está chovendo (contexto), então tomamos um guarda-chuva (ação) porque nosso parâmetro de modelo nos diz que é assim que podemos obter a recompensa máxima. E, de fato, você observa que fica um pouco irritado ao andar na chuva com um guarda-chuva, mas não é realmente infeliz. Aprendemos com isso que chuva + guarda-chuva é mal-humorado. Da próxima vez que chove, você escolhe novamente uma crença aleatória sobre o que acontece quando a chuva cai sobre sua cabeça. Desta vez, pode ser que isso não o incomode. Contudo, quando você está no meio do caminho para o seu destino, está se contorcendo e aprende que a chuva sem guarda-chuva é realmente muito ruim. Isso reduz sua incerteza sobre a infelicidade quando chove de cabeça, porque agora você sabe que é provavelmente alto.

Isso parece tão simples!

Sim, não é tão complexo. A parte difícil é amostrar a partir de um parâmetro do modelo posterior. É difícil obter e manter uma distribuição sobre todos os parâmetros do seu modelo, que também é apropriado para o seu problema específico. Mas ... é definitivamente factível :).

Pieter
fonte