Bandidos de vários braços funcionam bem em situações em que você tem opções e não tem certeza de qual delas maximizará seu bem-estar. Você pode usar o algoritmo para algumas situações da vida real. Como exemplo, o aprendizado pode ser um bom campo:
Se uma criança está aprendendo carpintaria e é péssima nisso, o algoritmo lhe dirá que provavelmente precisará seguir em frente. Se ele / ela é bom nisso, o algoritmo lhe dirá para continuar a aprender esse campo.
O namoro também é um bom campo:
Você é um homem que põe muito "esforço" em perseguir uma dama. No entanto, seus esforços são definitivamente indesejados. O algoritmo deve "levemente" (ou fortemente) levá-lo a seguir em frente.
Para que outras situações da vida real podemos usar o algoritmo de bandido de vários braços?
PS: Se a pergunta for muito ampla, deixe um comentário. Se houver um consenso, removerei minha pergunta.
Respostas:
Quando você joga os jogos Pokemon originais (vermelho ou azul e amarelo) e chega à cidade de Celadon, as máquinas caça-níqueis Team têm diferentes probabilidades. Bandit de vários braços aqui, se você deseja otimizar a obtenção desse Porygon muito rápido.
Com toda a seriedade, as pessoas falam sobre o problema ao escolher variáveis de ajuste no aprendizado de máquina. Especialmente se você tiver muitas variáveis, explora-se exploração versus exploração. Veja como Spearmint ou mesmo o novo artigo neste tópico que usa um algoritmo super simples para escolher parâmetros de ajuste (e superar de maneira positiva outras técnicas de variáveis de ajuste)
fonte
Eles podem ser usados em um cenário de tratamento biomédico / projeto de pesquisa. Por exemplo, acredito que os algoritmos de q-learning são usados em ensaios seqüenciais, de atribuição múltipla e randomizados ( ensaios SMART ). Vagamente, a ideia é que o regime de tratamento se adapte perfeitamente ao progresso que o paciente está fazendo. Está claro como isso pode ser melhor para um paciente individual, mas também pode ser mais eficiente em ensaios clínicos randomizados.
fonte
Eles são usados nos testes A / B de publicidade on-line, onde diferentes anúncios são exibidos para diferentes usuários e com base nos resultados das decisões tomadas sobre quais anúncios serão exibidos no futuro. Isso é descrito em um bom artigo pelo pesquisador do Google, Steven L. Scott .
fonte
Eu fiz a mesma pergunta no Quora
Aqui está a resposta
fonte