Existem N jogadores e M objetos, cada um dos objetos tem um valor. Cada jogador tem uma estratégia na escolha de um objeto. A cada rodada que um jogador escolhe um objeto, muitos jogadores podem escolher o mesmo objeto. No entanto, o valor de cada objeto é dividido igualmente entre todos os jogadores que o escolheram. Haverá 9000 rodadas (escolhas) por jogo. Nosso objetivo é maximizar os valores que acumulamos no final do jogo.
Pergunta: como criar uma função de distribuição de probabilidade para cada jogada, assumindo que suas decisões são variáveis aleatórias?
Abordagem Atual: Minha abordagem atual é contar a frequência de um jogador escolher um objeto específico e dividir pelo número total de rodadas, o que daria uma probabilidade de um jogador provavelmente escolher esse objeto específico.
Problema: com cada jogador jogando agressivamente tentando ser imprevisível possível (ruído), com a minha abordagem atual as funções de distribuição de probabilidade não são precisas (9000 rodadas não parecem ser dados suficientes). Existe uma maneira melhor de criar essas funções de distribuição?
Nota: Li em algum lugar que (modelo Bayes e HMM) são mais superiores do que as contagens de frequência, mas não sei como adaptá-lo a essa situação.
Respostas:
não tenho certeza se entendi corretamente qual é a pergunta ou melhor, quais são as observações a partir das quais as distribuições (experimentais) serão estimadas .
O problema de uma estimativa de distribuição está mais relacionado à estatística do que à ciência da computação, embora também possa ser relevante nessa área.
Existem vários métodos usando 2 abordagens principais:
Modelos parametrizados de uma distribuição de probabilidade, em que um (assumindo conhecimento prévio) usa um modelo predefinido (ou forma ou função) da distribuição (por exemplo, um Gaussiano ) com alguns parâmetros livres, dependendo dos dados (observações) e estima esses parâmetros (por exemplo, através do algoritmo de máxima verossimilhança ou EM ou de entropia máxima etc.). Mesmo que a forma da distribuição prob não seja conhecida, esse método ainda pode ser usado em aproximações como os modelos de mistura gaúcha . Esse método produz distribuições estimadas suaves (e geralmente robustas ), assumindo que a forma anterior esteja próxima do prob subjacente. distribuição.
Modelos não parametrizados, estimam todo o PD (incluindo sua forma) diretamente dos dados. Os métodos nessa categoria são janelas Parzen e estimativa de kernel . Esse método pode ser melhor a partir de estimativas parametrizadas, desde que a forma do pdf subjacente seja completamente desconhecida ou não trivial ou irregular em algum sentido.
Todos os métodos anteriores são computacionalmente eficientes (embora não necessariamente polinomiais). É assim que o algoritmo Simplex funciona, embora não seja de tempo polinomial, é eficiente em muitas situações práticas.
fonte
Eu acho que você está usando a abordagem errada. Eu sugiro que você use a teoria dos jogos para descobrir o seu jogo ideal.
Comece com o caso especial deN= 2 ; cada jogador temM escolhas, por isso temos uma M× M matriz de pagamento. A matriz de pagamento é fácil de definir. A estratégia ideal é (em geral) uma estratégia aleatória. Existem métodos padrão para calcular a estratégia ideal, dada a matriz de pagamentos. Então, você pode jogar a estratégia ideal. Então, paraN= 2 , resolver este jogo é fácil.
ParaN> 2 , a teoria dos jogos fica um pouco mais complicada, mas acho que idéias semelhantes ainda representam uma abordagem melhor para esse problema do que tentar estimar a distribuição que cada jogador escolheu no passado. Afinal, a história passada não é necessariamente representativa de jogos futuros; os jogadores podem mudar suas escolhas ao longo do tempo, portanto, a distribuição de suas escolhas no início do jogo pode não ser representativa da distribuição de suas escolhas posteriormente no jogo.
fonte