Em que tipo de situações da vida real podemos usar um algoritmo de bandido de vários braços?

15

Bandidos de vários braços funcionam bem em situações em que você tem opções e não tem certeza de qual delas maximizará seu bem-estar. Você pode usar o algoritmo para algumas situações da vida real. Como exemplo, o aprendizado pode ser um bom campo:

Se uma criança está aprendendo carpintaria e é péssima nisso, o algoritmo lhe dirá que provavelmente precisará seguir em frente. Se ele / ela é bom nisso, o algoritmo lhe dirá para continuar a aprender esse campo.

O namoro também é um bom campo:

Você é um homem que põe muito "esforço" em perseguir uma dama. No entanto, seus esforços são definitivamente indesejados. O algoritmo deve "levemente" (ou fortemente) levá-lo a seguir em frente.

Para que outras situações da vida real podemos usar o algoritmo de bandido de vários braços?

PS: Se a pergunta for muito ampla, deixe um comentário. Se houver um consenso, removerei minha pergunta.

Andy K
fonte
3
Dado que existem três respostas votadas (até agora), não acho que isso seja amplo demais para ser responsável.
gung - Restabelece Monica
@gung Eu tenho mais votos e, no entanto, eles não são refletidos na minha pontuação. Por quê?
Andy K
5
Isso porque esse tópico é wiki da comunidade (CW), @AndyK. Quando um segmento é CW, as pessoas não obtêm reputação de votos positivos (ou perdem de votos negativos). Você ganharia distintivos normalmente, no entanto. Perguntas como essa que solicitam listas de coisas e onde não há uma resposta clara e "correta" devem estar fora do tópico nos sites da SE. Nosso compromisso (acredito que outros sites também fazem isso) é permitir essas perguntas caso a caso, mas torná-las CW.
gung - Restabelece Monica
@gung bastante justo
Andy K
11
admissões na faculdade. Seleção de métricas para seleção de destinatários para órgãos doados.
EngrStudent - Restabelece Monica

Respostas:

8

Quando você joga os jogos Pokemon originais (vermelho ou azul e amarelo) e chega à cidade de Celadon, as máquinas caça-níqueis Team têm diferentes probabilidades. Bandit de vários braços aqui, se você deseja otimizar a obtenção desse Porygon muito rápido.

Com toda a seriedade, as pessoas falam sobre o problema ao escolher variáveis ​​de ajuste no aprendizado de máquina. Especialmente se você tiver muitas variáveis, explora-se exploração versus exploração. Veja como Spearmint ou mesmo o novo artigo neste tópico que usa um algoritmo super simples para escolher parâmetros de ajuste (e superar de maneira positiva outras técnicas de variáveis ​​de ajuste)

www3
fonte
6

Eles podem ser usados ​​em um cenário de tratamento biomédico / projeto de pesquisa. Por exemplo, acredito que os algoritmos de q-learning são usados ​​em ensaios seqüenciais, de atribuição múltipla e randomizados ( ensaios SMART ). Vagamente, a ideia é que o regime de tratamento se adapte perfeitamente ao progresso que o paciente está fazendo. Está claro como isso pode ser melhor para um paciente individual, mas também pode ser mais eficiente em ensaios clínicos randomizados.

- Reinstate Monica
fonte
Obrigado @gung. Eu não sabia sobre esse algoritmo. Vou ter uma leitura dele
Andy K
2

Eu fiz a mesma pergunta no Quora

Aqui está a resposta

  • Alocação de financiamento para diferentes departamentos de uma organização

  • Escolher atletas com melhor desempenho em um grupo de estudantes com tempo limitado e um limiar de seleção arbitrário

  • Maximizando os ganhos do site enquanto testa simultaneamente novos recursos (em vez do teste A / B) Você pode usá-los sempre que precisar otimizar resultados quando não tiver dados suficientes para criar um modelo estatístico rigoroso.

Andy K
fonte