Esta questão é uma ramificação da pergunta anterior de Ramon Snir sobre a frequência com que diferentes tipos de peças são movidos, em média, em um jogo de xadrez. Minha pergunta:
Os números relativos de jogadas para os tipos de peças dados diferem quando se olha os jogos de jogadores mais fortes, em oposição aos jogos de jogadores mais fracos? (Por exemplo, talvez os jogadores mais fracos tendam a fazer mais movimentos de peão em detrimento dos movimentos de peças, ou fazem muitos movimentos de dama. Eu não sei.)
Consegui responder à pergunta anterior usando dados brutos extraídos de um banco de dados grande por outra pessoa . Esses dados vieram de uma amostra de jogos de 4 milhões ou mais, variando de grandmaster play a play amador fraco, e os números agregados dos totais de movimentação dados não discriminam com base na força do jogador. Responder à minha pergunta exigirá a obtenção de dados separados para jogos entre jogadores fortes e jogos entre jogadores fracos, e estou procurando respostas com backup de dados em vez de anedotas .
Aqui está uma forma mais específica da minha pergunta:
Existe algum limite de classificação Elo N tal que, quando se olha o número médio de movimentos em um jogo dividido por tipo de peça, há uma diferença significativa entre o que se encontra em jogos com jogadores acima de N e o que se encontra em jogos apresentando jogadores abaixo de N.
Seria interessante se mais desse tipo de coisa pudesse ser encontrado também, ou seja, diferenças concretas entre jogadores mais fortes e mais fracos que podem ser detectados pela mineração de dados. Tais descobertas podem apontar comportamentos específicos que impedem os jogadores ou, inversamente, comportamentos que os impulsionam para a frente. Agora, talvez não exista essa diferença apenas observando esse tipo de dados, mas eu também estaria interessado em saber isso.
Respostas:
Aqui está uma análise rápida e suja, baseada no banco de dados PGN "Million Base". Fiz isso às pressas, portanto pode haver erros na minha programação ou lógica. Por favor, não o use para algo muito sério. Atualização - Nota: Na verdade, acabei de perceber que cometi um erro no conjunto de dados e o limitei aos primeiros 1 milhão de registros. Vou postar uma atualização quando tiver tempo livre para executá-la novamente. Enquanto isso, esses números devem ser interessantes, no entanto.
Obtendo os dados:
Eu obtive o arquivo Million Base 1.74 a partir desta URL , pois o site top-5000.nl parece 404 quando você tenta fazer o download. O arquivo contém pouco mais de 1 milhão de jogos no formato de exportação PGN (ou seja, fácil de analisar).
Infelizmente, mais de 60% dos jogos não possuíam informações de classificação (eu estava procurando pelas tags "WhiteELO" e "BlackELO"), e menos ainda tinham classificações para os dois jogadores. No final, decidi obter o maior tamanho de amostra possível e contei os movimentos de um jogador se sua classificação fosse conhecida, independentemente da classificação do outro jogador.
Processo:
Os jogos foram analisados um por um e, se a classificação de um jogador fosse conhecida, todos os seus movimentos para esse jogo seriam adicionados ao agregado do grupo de classificação do jogador. Eu escolhi dividir as classificações em grupos de 100, por exemplo, 1600 a 1699 era um único grupo.
Como o texto em movimento real na PGN é SAN, usei o seguinte atalho para contar os movimentos: Cavaleiro (N), Bispo (B), Torre (R), Rainha (Q) e Rei (K). Todos os movimentos começam com a letra da peça . O roque (OO e OOO) foi contado separadamente, como um caso especial. Todos os movimentos restantes foram contados como movimentos de peão sem exame adicional.
Nenhuma limpeza de dados foi feita. Não houve tentativa de identificar discrepantes e removê-los (por exemplo, jogos excessivamente curtos e longos, etc.). Eu mantive, mas não incluímos na análise a seguir, os resultados de classificações abaixo de 1600 - o tamanho da amostra para esses jogos ficou bem abaixo de 100, levando a grandes variações nos resultados. Os dados brutos são fornecidos no final desta postagem.
Algumas deficiências da informação: no momento, só coletei totais muito básicos e forneça médias. Tenho certeza de que, em geral, os dados NÃO são normalmente distribuídos, mas não serão capazes de dizer mais sem realmente gerar as contagens brutas e executá-las por meio de um programa estatístico. Posso fazê-lo, se houver interesse. No momento, isso significa que não há intervalos de confiança ou outras informações sobre a distribuição dos números que essas médias representam. Também não verifiquei quantos anos o conjunto de dados se estende - se representa muitos anos, pode ser benéfico tentar corrigir a força geral do campo.
Algumas tendências:
Uma palavra sobre as classificações dos jogadores - os grupos de classificações mais frequentes encontrados foram, em ordem: 2400 a 2500, 2500 a 2600 e 2300 a 2400. Esses grupos de classificação forneceram 72% dos jogos contados.
Olhando para os resultados reais, a duração média do jogo foi uma surpresa:
Todos os grupos de classificação sub-2000 tiveram jogos significativamente mais curtos que os grupos superiores. Isso pode ser explicado pela possibilidade de que eles estavam jogando com oponentes mais fortes (veja a classificação média acima) e que foram derrotados em menos jogadas. Isso parece ir contra os jogos um pouco mais curtos disputados pelo grupo de classificação mais alta, embora isso possa contribuir para um tamanho menor da amostra.
As diferenças relativamente grandes na duração média do jogo significam que fornecer a frequência de movimentação de uma determinada peça, em vez do número total de vezes que uma peça é movida, talvez seja a comparação mais justa. O cálculo das frequências resulta no seguinte gráfico:
As seguintes tendências parecem estar presentes:
Análise Adicional
Algumas idéias para análises futuras:
Agregar dados no formato CSV
Para quem quiser brincar com os dados, fique à vontade.
Faixa de classificação, tamanho da amostra, duração média do jogo, movimentos médios de peões, movimentos médios de cavaleiros, movimentos médios de bispo, movimentos médios de torre, movimentos médios de rainha, movimentos médios de rainha, movimentos médios de rei e castelos médios
fonte