Houve muita pesquisa sobre classificação de inflação?

24

O empate de Magnus Carlsen na rodada de ontem do London Chess Classic de 2012 garantiu que sua classificação na próxima lista publicada da FIDE ultrapassará o recorde anterior de Kasparov de 2851. Vi / ouvi fãs apaixonados de xadrez debaterem os méritos relativos da conquista de Carlsen em comparação com a de Kasparov versus, digamos, de Fischer. Para deixar claro, não é isso que estou procurando aqui.

Um elemento crucial de tais discussões é a noção de se as classificações da Elo em geral sofreram inflação ao longo do tempo: há muito mais 2700+ grandes mestres hoje do que há 20 anos atrás por causa de um aumento geral na força de jogo ou apenas por causa de alguns tendência inflacionária geral nos números? Também não estou tentando solicitar opiniões nuas sobre isso ou não. O que estou interessado em saber:

Que sérias tentativas de pesquisa foram feitas para responder à pergunta empírica sobre se as classificações da FIDE Elo aumentaram naturalmente ao longo do tempo por causa de algo além de um aumento na força geral no grupo de jogadores?

A entrada da Wikipedia sobre o sistema de classificação Elo tem um pouco a dizer sobre o assunto e também aponta para um artigo de Jeff Sonas, da Chessmetrics . Além de qualquer indicação de trabalho de outros, eu também gostaria de receber uma resposta que dê um resumo claro e conciso dos principais pontos de Sonas.

ETD
fonte
Outra coisa a se pensar é a inflação nos ratings da USCF. Houve e periodicamente a USCF faz ajustes muito para horror dos jogadores. Como o USCF e o FIDE usam o mesmo sistema, fundamentalmente ficaria surpreso se a inflação pudesse afetar o USCF e não o FIDE.
Tony Ennis
2
Os sistemas não são os mesmos, por exemplo, o USCF possui pisos de classificação que são claramente um fator inflacionário.
RemcoGerlich 12/02

Respostas:

19

Estou surpreso que o artigo "Intrinsic Chess Ratings" de Ken Regan e Guy Haworth ainda não tenha sido publicado. É exatamente o que se pede, uma pesquisa séria sobre classificação de inflação. PDF

Basicamente, eles obtiveram jogos de três períodos (1976-1979, 1991-1994, 2006-2009), em várias faixas de classificação (por exemplo, ambos os jogadores em 10 pontos de 2200, 10 pontos de 2300, etc.) e tipos de jogos excluídos que pode ser anômalo, como partidas de equipes. Leia o jornal, parece bastante completo.

Então eles compararam os jogos sistematicamente com o Rybka 3.

Algumas frases da conclusão:

Concluímos que existe uma relação suave entre as classificações Elo reais dos jogadores e a qualidade intrínseca das opções de movimentação, medida pelo programa de xadrez e pelo ajuste do agente. Além disso, os valores finais de ajuste obtidos são quase os mesmos para as entradas correspondentes dos três períodos.

Na minha opinião, é uma evidência bastante sólida contra a existência de inflação de rating.

RemcoGerlich
fonte
11
Obrigado por postar isso, eu também vim para compartilhar isso. Esta é a única linha de pesquisa que comparou os jogadores a um padrão objetivo. Todos os argumentos que tenho visto para classificar a inflação são subjetivos e geralmente anedóticos. Em uma nota pessoal, eu não acho que o fato de Morphy ter provavelmente 2300 se afaste da minha apreciação de seus jogos ou de sua habilidade em relação aos seus concorrentes na época.
Sam Copeland
12

Eu bisbilhotei alguns. Você provavelmente já viu essas páginas, mas eu as publicarei de qualquer maneira:

uma. Esta página lhe interessará . Inclui uma fotocópia de uma carta do próprio Elo declarando a possibilidade:

Assim, com o tempo, a escala de classificação pode variar, a menos que sejam tomadas algumas medidas para estabilizá-la.

Ele ainda menciona que a escala de classificação não tem âncora, nem ponto fixo. Compare com um atleta que faz uma corrida em uma hora; agora uma hora é igual a uma hora há 50 anos. O tempo é um ponto tão fixo.

b. Além disso, a questão da "inflação" já não foi respondida pelas recentes revelações de altas classificações que saem de áreas isoladas? Consulte a seção "Pool de jogadores" desta página para uma alusão ao problema. Suporte adicional , embora não seja acadêmico nem particularmente informativo. Procure por "isol". Aqui está outra anedota mostrando o que acontece com populações isoladas (e outro candidato ao tópico 'por que os jogadores de xadrez são loucos'!) Eu não verifiquei de fato, mas deveria ser fácil o suficiente.

c. O artigo wiki do Elo fala sobre inflação como se fosse um fato aceito.

d. Aqui está um artigo relevante sobre inflação e o acompanhamento . Olhe para aquela arma de fumar em 1986!

Tony Ennis
fonte
Eu não tinha visto a página de um., Obrigado por isso. Em relação a b., Não conheço o que você está se referindo; Você pode elaborar?
ETD
2
Eu diria que, sem uma âncora real, é impossível ajustar com precisão; no final, estamos apenas nos ajustando anecodaticamente a algum valor arbitrário.
Daniel B
Possivelmente. Mas ajustar os ratings para gerar uma curva de distribuição semelhante provavelmente seria um bom começo. Por exemplo, há alguns anos, o USCF ajusta as classificações para que o jogador médio do clube fosse 1500. Não sei se eles ainda fazem isso.
Tony Ennis
11
@ TonyEnnis Claro, e acho que isso é provavelmente o melhor possível, por enquanto. Especificamente, quero dizer: o que acontece se o "jogador médio do clube" hoje é realmente melhor do que 50 anos atrás? Não é como conseguir que eles joguem contra jogadores do passado ... Portanto, ficamos com a estimativa da força do jogador de alguma forma e o ajuste. Talvez com programas de computador (executados em uma plataforma prescrita padrão), poderíamos ter algum tipo de âncora imparcial e duradoura. Mas mesmo isso teria problemas, como a descoberta de estratégias que funcionem bem contra o programa de benchmark etc.
Daniel B
5

Em termos absolutos, Carlsen 2012 com certeza é um jogador mais forte que Kasparov 1985.

Se Carlsen 2012 viajasse no tempo jogasse uma partida com Kasparov 1986, Carlsen derrotaria Kasparov. Isso ocorre simplesmente porque a preparação assistida por tecnologia é muito mais eficiente, e Carlsen também tem uma vantagem na teoria da abertura, porque possui o conhecimento acumulado de 1987 a 2012 que Kasparov não possui.

No entanto, Kasparov é provavelmente um jogador mais forte que Carlsen. Se considerarmos a lista das 100 melhores da FIDE em junho de 2000 (a mais antiga que pode ser obtida), veremos que Kasparov com 2849 Elo concorre com uma média de 2641 pelos 99 seguidores (distância de Elo 208 pontos) enquanto Calsen está na lista dos 100 melhores da Fide para dezembro de 2012 com um 2848, o Elo compete com uma média de 2702 por seus 99 seguidores (distância do Elo de 146 pontos).

Elo é sobre a diferença de pontos, não sobre valores absolutos (100 pontos de diferença para Elo significa que o jogador A é 2 vezes melhor que o jogador B, 200 pontos significa 4 vezes melhor e assim por diante. Então, com essa lista, isso significava que Kasparov foi, em média, mais de 4 vezes melhor que todos os seus 99 seguidores, enquanto Carlsen é provavelmente menos apenas 3 vezes melhor que a média de seus 99 seguidores.

Se pegarmos a lista onde Kasparov tem a distância máxima com seus 99 seguidores e comparar essa distância com a melhor para Carlsen, poderemos determinar qual jogador foi realmente o melhor, porque com 99 pontos de dados, valores extremos (como outro gênio) obter mitigá-lo.

Eu me pergunto, no entanto, se Carlsen ou Kasparov realmente se importam com quem era melhor.

Pep
fonte
3
Seu argumento sobre Kasparov ser um jogador mais forte que Carlsen baseia-se na comparação de cada um com os próximos 99 melhores jogadores. Você nota, corretamente, que as classificações do Elo são relativas, mas seu argumento faz uma segunda suposição não declarada, a saber, que os próximos 99 jogadores de hoje têm a mesma força de jogo que os próximos 99 no auge de Kasparov. Se essa segunda suposição não for verdadeira, você estará comparando Kasparov e Carlsen a diferentes padrões. Você precisa encontrar um grupo de pessoas que são iguais hoje em dia nos dias de Kasparov. Essa piscina é provavelmente o seu iniciante médio, não os super-mestres.
Thucydides411
4

O sistema da Elo tinha dois componentes. Um era independente da história, o outro não. Seu sistema para criar uma "classificação de desempenho" ao longo de um evento ou período não tinha nenhum componente histórico; era simplesmente uma medida de desempenho no tempo especificado. (A memória me falha nesse ponto, mas acho que quando ele estava calculando as classificações para o FIDE, esse foi o método que ele usou.)

No entanto, o sistema Elo, usado pelas federações em todo o mundo, tem um componente histórico, pois as classificações são calculadas calculando um delta, uma alteração em relação à classificação anterior.

O sistema de base histórica tem uma tendência natural à deflação. O sistema é um sistema fechado, sem novos pontos sendo criados. Assim, novos jogadores entram, recebem pontos de jogadores estabelecidos e depois saem (por morte ou aposentadoria) antes de retornar todos esses pontos ao próximo lote de jogadores em ascensão.

Muitas idéias foram tentadas para compensar isso, algumas funcionando melhor que outras. Adicione a isso a pressão comercial na USCF do início dos anos 70 para fazer as classificações subirem mais rapidamente (a visão bastante cínica era de que os jogadores comprariam um livro da USCF e jogariam em um torneio, sua classificação aumentaria, incentivando-os a comprar outra etc.) e a inflação era algo real em alguns pontos da história.

Como o sistema de Elo era baseado em uma curva normal (sino), não faz sentido tentar avaliar a inflação medindo os extremos; é provável que os extremos sejam afetados pelo número total de jogadores classificados do que por mudanças na força real ou em qualquer tipo de inflação.

Arlen
fonte
1

Eu tenho uma ideia simples. Vamos pegar um computador de xadrez (hardware + software) que teve sua classificação medida há 20 anos, através do jogo com outros computadores com classificações conhecidas que eles tinham há 20 anos. Agora, vamos medir sua classificação agora (exatamente o mesmo hardware e exatamente o mesmo software), através do jogo com computadores modernos de xadrez, com a classificação conhecida de hoje. A diferença de duas medições constituiria inflação nos últimos 20 anos. Simples o suficiente?

alex1220
fonte
Computaria mais ou menos a inflação de classificação para computadores , não para jogadores humanos. Os seres humanos jogam de maneira diferente contra computadores do que entre si.
Glorfindel
1

As conclusões do artigo de Regan-Haworth devem ser tiradas com um pouco de sal, pois parece contradizer outras análises de jogos de computador, com melhores softwares e hardwares e com métodos matemáticos mais avançados. Lá eles concluem (veja a Tabela 9), por exemplo, que Karpov em 1977 jogou em um nível ligeiramente inferior ao de Kasparov em 2001 e Anand em 2008 (com expectativa de marcar cerca de 47% dos pontos) e, na verdade, melhor que Topalov em 2005 e Ponomariov em 2011. Como o Kasparov-2001 é 150 pontos mais alto que o Karpov-1977, a classificação esperaria que ele atingisse 70% dos pontos. Não vejo como conciliar isso com a alegação de que não havia inflação de rating.

Observe que também, ao contrário da alegação implícita na pergunta, não existe um mecanismo pelo qual a classificação reflita uma mudança na força geral do grupo de jogadores . Pode ser empiricamente o caso de uma força típica de um jogador de 2600 não ter mudado ao longo de um certo período de tempo, mas isso seria apenas uma coincidência, e não um reflexo das propriedades fundamentais do sistema ELO, e certamente não generalizável.

Se preferimos definir a inflação ingenuamente e apenas medir a classificação média dos 100 melhores jogadores, então, como pode ser visto neste link , houve uma inflação estável até 2012 e nenhuma inflação desde então - a classificação média entre os 100 melhores oscilou entre 2700 e 2705 nos últimos 7 anos .

Kostya_I
fonte
0

Primeiro, você precisa definir o que você quer dizer com melhor. Por exemplo, o melhor significa que você é o jogador mais dominante na sua época? Ou isso significa que a qualidade do seu jogador é superior a todos os outros jogadores. E se qualidade é o que você quer dizer, como você define qualidade?

Paul Morphy foi provavelmente o jogador mais dominante. Por exemplo, aos 12 anos, derrotou um dos dez melhores jogadores (Lowenthal) em uma partida por 3-0. Segundo Edo e o xadrez, ele provavelmente já era um dos melhores jogadores do mundo aos 12 anos! Aos 21 anos, ele jogou contra um simultâneo contra cinco dos dez melhores jogadores (Bird, Barnes, Boden, De Reviere e Lowenthal) e marcou 3-2.

No entanto, a maioria argumentaria que o domínio é um fraco indicador de quem é o melhor. Afinal, Morphy foi descrito como o primeiro jogador de xadrez moderno. Sua competição foi fraca em comparação com os campeões subsequentes.

Outra definição que foi usada é a qualidade do jogo. No entanto, essa definição também tem muitos problemas. Nas centenas de 1900, vários indivíduos argumentaram que Steinitz ou Lasker eram os melhores jogadores de todos os tempos, argumentando que seu conhecimento da abertura e da teoria moderna os tornaria superiores aos jogadores do passado. No entanto, Louis Paulsen apresentou alguns argumentos muito inteligentes contra essa hipótese. Ele argumentou que Morphy (que tinha uma memória fotográfica e memorizava o código de barras Louisana aos 19 anos), se trazido de volta à vida, aprenderia aberturas e teoria moderna dentro de um ano e seria capaz de competir com sucesso contra jogadores de xadrez modernos.

Regan argumenta que jogadores modernos de xadrez que têm acesso a computadores de xadrez e métodos modernos de treinamento jogam mais como computadores do que jogadores do passado. Isso não é surpresa, porque eles foram treinados por computadores, mas isso significa que os jogadores modernos são realmente melhores? Isso levanta a questão: o que Fischer ou Capablanca fariam se tivessem acesso a computadores modernos?

Além disso, o computador de análise do professor Regan me parece tão incompleto quanto envolve apenas alguns períodos de cinco anos e os jogadores incluídos na análise não são mencionados. Uma análise computadorizada mais aprofundada dos professores Matej Guid e Ivan Bratko descobriu que, de fato, Capablanca se parecia mais com um computador do que com jogadores modernos! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. No entanto, Guid e Bratko observaram que há um problema em concluir com isso que Capablanca era um jogador melhor. Talvez seu estilo bastante calmo tenha levado a menos posições onde ele provavelmente erraria. Portanto, sua porcentagem de erros foi menor, mas ele também estava colocando menos pressão sobre seus oponentes do que jogadores mais agressivos. De fato, Capablanca teve uma alta porcentagem de empate em comparação com seus contemporâneos.

Por outro lado, um jogador altamente tático como Kasparov pode ser penalizado por seu estilo de jogo, o que provavelmente levará a posições altamente táticas em que os computadores são especialmente bons em encontrar erros. De fato, os computadores tendem a ter um desempenho melhor contra jogadores táticos do que jogadores posicionais ou em posição fechada, em que as táticas desempenham um papel menor. Assim, é provável que uma análise computacional que se baseie no número de erros detectados por computador favorece jogadores de posição fechada e tranqüila. Por outro lado, um jogador agressivo como Kasparov pode cometer mais erros táticos do que alguns outros jogadores, porque ele buscou posições muito complexas, mas seus oponentes farão ainda mais!

Portanto, você precisa de um sistema de ponderação de erros que não calcule apenas a porcentagem de erros por 100 movimentos (que é basicamente o que Regan, Guid e Bratko fizeram). Em vez disso, você precisa calcular a diferença entre sua taxa de erro e a taxa de erro de seus oponentes. Afinal, o xadrez é cometer menos erros do que o seu oponente. Colocar pressão no seu oponente para induzir mais erros é considerado de boa qualidade.

No entanto, meu método de cálculo revisado leva a outro problema: essas análises por computador não levam em consideração a força do seu oponente. Por exemplo, talvez Larson alcance uma classificação muito alta no xadrez, porque seu estilo agressivo (otimista) levou ao domínio sobre os jogadores de classificação mais baixa. No entanto, ele teve problemas em jogos contra jogadores de igual classificação. Outros jogadores freqüentemente argumentam que ele estava otimista demais em seu jogo contra outros jogadores de alto nível. Para evitar esse problema, a análise de verificação de erros do computador deve considerar apenas jogos contra concorrentes fortes (por exemplo, os 10, 20 ou 100 melhores jogadores). No entanto, isso ainda não trata do problema de aumentar a concorrência forte ao longo do tempo.

O problema de aumentar a qualidade do jogo pode ser corrigido olhando para classificações anteriores, como o Chessmetrics? Na verdade, eu prefiro o sistema de classificação Edo back http://www.edochess.ca/porque as suposições estatísticas são melhores. Por exemplo, o Chessmetrics assume que a classificação máxima de um jogador ocorre quando ele tem 40 anos. Duvido que isso seja verdade para todos e muitos jogadores desistem do xadrez antes dessa idade ou suas jogadas foram apenas de primeira por alguns anos (por exemplo, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Infelizmente, o Edo compara apenas as classificações dos jogadores de 1811 a 1920. Segundo Edo, Capablanca e Morphy são os dois maiores jogadores dessa época. De acordo com Chessmetrics, Capablanca e Lasker foram os dois melhores jogadores (Morphy nem está entre os dez melhores). De acordo com Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein e Burn foram melhores que Morphy.

Se a inovação leva ao domínio dentro de uma era específica do xadrez ao longo do tempo e se torna cada vez mais difícil inovar ao longo do tempo, à medida que a força da competição aumenta, você não pode medir o verdadeiro domínio apenas observando os recordes dos 30 melhores jogadores. Ou seja, é muito mais difícil para Magnus Carlsen dominar seus oponentes do que para os campeões anteriores. Se você olhar para as classificações anteriores, é fácil ver que a magnitude da diferença entre as classificações dos melhores jogadores vem diminuindo ao longo do tempo. Portanto, acredito que um modelo estatístico do tipo Edo que leve em consideração a dificuldade de dominar ao longo do tempo seria uma abordagem melhor do que o que foi tentado anteriormente. Por exemplo, Fischer foi um jogador bastante dominante em sua época porque venceu 20 jogos seguidos. Qual foi a sequência de vitórias mais longa de Kasparov ou Karpov em comparação com essa sequência de vitórias? Segundo Seirawan, suas séries de vitórias mais longas foram sete jogos.

Claro, não estou afirmando que as vitórias são uma boa métrica. Estou apenas argumentando que o domínio por classificações ou em partidas individuais contra outros jogadores de topo é uma métrica útil que não é explicitamente levada em consideração nos atuais sistemas de classificação por trás.

Portanto, a análise dos meus sonhos é que você usa as classificações do Edo com base em um banco de dados que inclui apenas os 20 ou 30 melhores jogadores de cada período de cinco anos. Depois de concluir esta análise, você reponderará seus resultados por um fator de dominância. Ou seja, jogadores mais recentes recebem um fator de bônus calculado estimando a trajetória de dificuldade de dominação ao longo do tempo (a diminuição nas disparidades de classificação entre os 30 melhores jogadores ao longo do tempo). A seguir, você validaria essa análise comparando a porcentagem de jogadores de erros calculados no computador de xadrez que seus oponentes cometem menos seus próprios erros. Se isso invalidar o que foi dito acima, será necessário ponderar novamente de acordo com a análise de verificação de erro do computador, se mostrar que há uma tendência para os melhores jogadores mais recentes jogarem com mais precisão, mesmo depois que meu fator de dominância for levado em consideração.

Meu palpite é que Kasparov faria muito bem. Mas isso é apenas um palpite.

ToddM
fonte
2
Isso não parece responder à pergunta.
Herb Wolfe
O que quero dizer é que você não pode responder à pergunta sobre a inflação de classificação até definir a capacidade de xadrez. Revisei a pesquisa tentando ajustar a inflação dos ratings ou tentando determinar como as habilidades dos campeões de xadrez variam ao longo do tempo (que é o que significa a inflação dos ratings). Acredito que o problema é que os pesquisadores realmente não identificaram suas suposições sobre o que eles acreditam ser a capacidade do xadrez. Na minha opinião, sem definir a capacidade do xadrez, você não pode responder à questão de saber se a capacidade do xadrez muda com o tempo ou dizer alguma coisa sobre a classificação de inflação.
ToddM