Eu li sobre uma série de algoritmos para resolver problemas de bandidos n-armados como -greedy, softmax e UCB1, mas eu estou tendo alguns problemas triagem através de qual abordagem é melhor para minimizar o arrependimento.
Existe um algoritmo ideal conhecido para resolver o problema dos bandidos n-armados? Existe uma escolha de algoritmo que parece ter o melhor desempenho na prática?
Respostas:
Aqui estão dois documentos de pesquisa que encontrei recentemente. Ainda não os li, mas os resumos parecem promissores.
Joor`s Vermorel e Mehryar Mohri: Algoritmos de Bandidos Multi-Armados e Avaliação Empírica (2005)
Do resumo:
Volodymyr Kuleshov e Doina Precup: Algoritmos para o problema dos bandidos armados (2000)
fonte