O Problema de Warren Buffett

Aqui está uma abstração de um problema de aprendizado / bandido on-line em que estive trabalhando no verão. Eu nunca vi um problema como esse antes e parece bastante interessante. Se você conhece algum trabalho relacionado, eu gostaria de receber referências.

O problema A configuração é a de bandidos com várias armas. Você tem N braços. Cada braço i tem uma distribuição de probabilidade desconhecida, mas fixa, sobre recompensas que podem ser obtidas ao jogá-lo. Por concretude, vamos supor que cada braço i pague recompensa $ 10 com probabilidade p [i] e recompensa $ 0 com prob. 1-p [i] .

Em cada rodada t você seleciona um conjunto de armas [t] para jogar. Para cada braço selecionado, você paga uma taxa de US $ 1 adiantado. Para cada braço selecionado, você recebe uma recompensa extraída da distribuição de probabilidade de recompensa (desconhecida) desse braço. Todas as recompensas são creditadas na sua conta bancária e todas as taxas são deduzidas dessa conta. Além disso, você recebe um crédito de US $ 1 no início de cada iteração.

O problema é desenvolver uma política para selecionar um subconjunto de armas para jogar em cada iteração, a fim de maximizar o lucro (ou seja, recompensas menos taxas por jogar) em um horizonte longo o suficiente, sujeito à restrição de que ele deve manter um saldo não negativo da conta em todas as vezes.

Não especifiquei se as distribuições de recompensa por braço são escolhidas de uma distribuição anterior ou escolhidas por um adversário. Ambas as escolhas fazem sentido. A formulação do adversário é mais atraente para mim, mas provavelmente mais difícil de avançar. Aqui, o adversário escolhe um vetor (D1, D2, .., DN) de distribuições. Dadas as distribuições, a política ideal de orçamento equilibrado é jogar todos os braços cuja recompensa esperada seja superior a US $ 1. Seja P o lucro por etapa dessa política onisciente ideal. Quero que minha política on-line minimize o arrependimento (ou seja, perda de lucro ao longo de uma janela de tempo T) com essa política onisciente.

machine-learning lg.learning online-learning Martin Pál
fonte

Você tem certeza de que a melhor política é jogar todas as armas cuja recompensa esperada seja superior a US $ 1 em cada rodada? Se você tem a restrição estrita de manter sempre um saldo não negativo da conta, pode haver rodadas nas quais você não tem permissão para jogar.

Matthias

Então você não conhece as probabilidades de recompensa, mas pode distinguir o pagamento de cada braço individual?

David Thornley

Você não conhece probabilidades e nem recompensas esperadas. Uma política onisciente "ideal" contra a qual eu quero me comparar pode, no entanto, jogar todos os braços com uma recompensa maior que 1, porque é onisciente.

Martin Pál

Vou adivinhar que, depois de

rodadas, você pode obter sua renda esperada dentro de um fator constante do ideal, após o qual o problema parece ter perdido a maior parte de seu caráter incomum. Um limite inferior de

segue de uma instância em que apenas um braço tem uma recompensa diferente de zero. Não vejo um limite superior imediatamente.

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

Warren Schudy

Correção: após

rodadas, você provavelmente não pode garantir um fator constante de renda ideal. No entanto, você provavelmente pode obter essa garantia em relação à renda disponível de armas que esperam retorno de pelo menos 2 dólares.

Θ (N)

$\Theta(N)$

Warren Schudy

Eu imagino que existem muitas abordagens possíveis para esse problema (muitas das quais tenho certeza de que você considerou) - aqui estão algumas idéias / referências.

Você poderia jogar isso como $N$ jogos paralelos independentes de bandidos de braço único, decidindo puxar ou não puxar cada braço de forma independente. Isso deve funcionar especialmente bem se as recompensas forem distribuídas independentemente.
Permita que cada conjunto de armas seja um novo braço e execute um algoritmo do tipo Exp3. Isso fornece um $O(2^{N/2} T^{1/2})$
Em um próximo artigo do NIPS 2010, Saten Kale, Rob Schapire e eu consideramos o caso em que se joga de armas de uma só vez. Em nosso trabalho, no entanto, o tamanho da ardósia é fixo. Este artigo também considera um problema semelhante. Outro trabalho semelhante apareceu no ALT 2010. Talvez algumas das idéias sejam transferidas.
$2^N$ $O(N\sqrt{T})$ $O(2^N T)$

EDITAR abaixo:

$0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

$B$ $0$ $2B$ $1/B$

Lev Reyzin
fonte

Oi Lev, obrigado pelos ponteiros. Concordo que, se eu tivesse um orçamento inicial ilimitado, jogar N bandidos paralelos de braço único resolveria o problema. A restrição orçamentária, no entanto, introduz a união entre armas e torna as coisas interessantes. Em particular, no primeiro passo, você só tem orçamento para jogar um braço. No segundo passo, você pode jogar 11 braços ou apenas 1 braço, dependendo se você teve sorte no primeiro passo e assim por diante. Portanto, é importante encontrar um monte de armas lucrativas desde o início para que você use uma nova exploração.

Martin Pál

Não sabia que havia um orçamento inicial (agora entendo a parte "saldo não negativo", mas talvez você possa esclarecer melhor a questão?) - isso torna o problema mais interessante. Também pode ser divertido considerar a versão "contextual" ou de especialistas. Infelizmente, não conheço referências mais relevantes para esse problema.

Lev Reyzin

Se eu acertar a formulação do problema, você ganha um dólar extra a cada rodada. Martin, você poderia esclarecer a pergunta?

Jukka Suomela 23/10/10

Eu acho que você ganha o que uma máquina paga se jogar e ganha e perde $ 1 sempre que decide jogar.

Lev Reyzin

O Problema de Warren Buffett

Respostas: