Por que o sistema de classificação Elo usa a regra de atualização errada?

O sistema de classificação Elo usa um algoritmo de minimização de descida de gradiente da função de perda de entropia cruzada entre a probabilidade esperada e observada de um resultado em comparações pareadas. Podemos escrever as funções gerais de perda como

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

onde a soma é realizada sobre todos os resultados todos os oponentes . é a frequência observada do evento e a frequência esperada. $i$ $n$ $p_i$ $_i$ $q_i$

No caso de apenas dois resultados possíveis (ganhar ou perder) e um oponente, temos

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

Se é o ranking do jogador e é o ranking do jogador podemos construída a probabilidade esperada como seguida, a regra de atualização de descida do gradiente informa o uso $\pi_i$ $i$ $\pi_j$ $j$

q_{i} = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

q_{j} = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$

π_{i}^{'} = π_{i} - η (q_{i} - p_{i})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - p_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

onde e são a probabilidade esperada e observada de vitória do jogador contra o jogador . Estas são as regras de atualização. $q_i$ $p_i$ $i$ $j$ two outcomes

Na presença de empates, podemos generalizar o modelo acima, incluindo e terceiro resultado com probabilidade

q (d) = \frac{ν e^{\frac{π_{i} + π_{j}}{2}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{i} (w) = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (w) = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

E podemos construir a função Perda como

E = - p (w) L o g (q (w)) - (1 - p (w) - p (d)) L o g (q (l)) - p (d) L o g (q (d))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

onde são, respectivamente, a probabilidade observado de , e e a probabilidade esperada de , e . Neste último caso, a regra de atualização seria $p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{i}^{'} = π_{i} - η (q_{i} (w) + \frac{q_{i} (d)}{2} - p_{i} (w) - \frac{p_{i} (d)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (w) + \frac{q_{j} (d)}{2} - p_{j} (w) - \frac{p_{j} (d)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

onde e são a probabilidade esperada de o jogador vencer e empatar contra o jogador . E onde e são a probabilidade observada de o jogador vencer e empatar contra o jogador . Esta é a regra de atualização. $q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

A questão é: por que o sistema de classificação Elo usa as two outcomesregras de atualização mesmo na presença de empates?

regression optimization rating emanuele
fonte

Respostas:

A probabilidade de desenhar, ao contrário de ter um resultado decisivo, não é especificada no sistema Elo. Em vez disso, um empate é considerado - tanto no desempenho esperado quanto no resultado da partida - meia vitória e meia derrota.

Um exemplo da página Elo na Wikipedia : "A pontuação esperada de um jogador é sua probabilidade de ganhar mais a metade de sua probabilidade de empate. Portanto, uma pontuação esperada de 0,75 pode representar 75% de chance de ganhar, 25% de chance de perder e 0% de chance Por outro lado, poderia representar 50% de chance de ganhar, 0% de chance de perder e 50% de chance de empatar. "

A probabilidade de desenhar, como eu disse, não é especificada e leva a uma two outcomeregra de atualização simples , , na qual ; portanto, após uma única partida, (vitória) ou (empate, como meia vitória) ou (derrota). $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

Como o Elo, o sistema Glicko não modela os empates, mas faz uma atualização como a média de uma vitória e uma perda (por jogador). Em vez disso, no sistema de classificação TrueSkill , "os empates são modelados assumindo que a diferença de desempenho em um jogo específico é pequena. Portanto, a chance de empate depende apenas da diferença da força de jogo dos dois jogadores. No entanto, descobertas empíricas no jogo do xadrez mostra que os sorteios são mais prováveis entre jogadores profissionais do que iniciantes. Portanto, a chance de desenhar também parece depender do nível de habilidade ".

Essa abordagem requer modelagem específica diferente para todos os jogos (e o TrueSkill é aplicado a alguns jogos do Microsoft Xbox), por isso é adequado para Elo e Glicko (projetado apenas para xadrez), e não para classificação , nosso sistema de classificação multiuso.

Tomaso Neri
fonte

"A pontuação esperada de um jogador é a probabilidade de ganhar mais a metade da probabilidade de empate." é exatamente o que eu encontrei na fórmula acima. De qualquer forma, na fórmula de atualização do Elo, a metade da probabilidade de empate não é especificada como você está apontando. A questão permanece: por que no sistema de classificação Elo não nos preocupamos com empates?

Emanuele

Você sempre pode expressar a pontuação esperada como a chance de ganhar e a chance de perder (e nenhuma chance de empate - veja o primeiro exemplo da Wikipedia). Nesse caso, 'a pontuação esperada de um jogador é sua probabilidade de ganhar' (e mais ainda, porque a metade da probabilidade de empate é zero). Após uma única partida, o resultado é uma vitória, ou uma derrota, ou meia vitória. Mesmo se você tiver um jogo em que os sorteios são permitidos, você pode atualizar a pontuação do Elo usando apenas uma combinação de vitória e derrota, como se os empates não tivessem chance.

Tomaso Neri 15/02