Fritz 12 com Rybka deu a um amigo meu uma avaliação de +3 para o branco nesta posição de final de jogo ,
Branco para mover
que acabou por ser um empate. Mas ouvi dizer que +3 de um computador significa uma vitória garantida com um jogo perfeito. Acabei de ouvir errado? Como as avaliações por computador devem ser interpretadas em geral? O que as vantagens de abertura de <0,5 significam?
analysis
engines
software
statistics
evaluation
chubbycantorset
fonte
fonte
Respostas:
Há algumas coisas aqui.
Primeiro, cada programa terá sua própria maneira de avaliar posições, para que as pontuações não possam ser comparadas diretamente. Por exemplo, eu estava executando o StockFish contra o Rybka recentemente e constatei que as pontuações do Stockfish eram aproximadamente o dobro das do Rybka. Fiquei surpreso com isso, mas é bem claro que uma pontuação de 1 nem sempre significa "1 peão". Eu acho que o que devemos olhar é como a pontuação muda. Outra curiosidade que vi ontem (ao responder uma de suas outras perguntas, coincidentemente) foi que o algoritmo de avaliação do Stockfish não gosta muito de números ímpares. De fato, a maioria das pontuações eram múltiplos de 0,04. Dado que a magnitude do valor é arbitrária, eu não assumiria que determinado valor significa "uma vitória certa", a menos que a máquina esteja afirmando que encontrou um parceiro.
Segundo, as bases de tabela de jogos finais foram criadas porque a resolução de jogos finais requer muita profundidade de pesquisa. Computadores jogando em velocidades de torneios simplesmente não funcionam bem. Alguns dias atrás, eu estava trabalhando em um jogo diferente e anunciei neste site que um lado tinha uma vantagem. Ed usou uma base de mesa para mostrar que não havia mais mistério na posição - ela foi teoricamente traçada. Claro, há uma enorme diferença entre empate com jogo perfeito e empate; os jogadores têm que encontrar os movimentos certos.
O pequeno valor geralmente dado a White nas fases iniciais do jogo significa basicamente que as brancas podem reivindicar imóveis mais valiosos. Por exemplo, no movimento 1, as brancas podem reivindicar e4 e atacar e5 e f5. O preto pode combater. Mas então as brancas podem jogar Nc3 e atacar / reforçar a4, b5, d5 e e4. Mas as pretas podem combater. Então isso significa muito pouco.
Finalmente, para responder à pergunta na sua linha de assunto - as avaliações são muito confiáveis, pois são baseadas em fatos concretos e em uma impressionante profundidade de pesquisa. Obviamente, as máquinas não são infalíveis. Mas nós, jogadores b, devemos lembrar que o Stockfish (ou Rybka) joga com os pontos fortes da GM em equipamentos modestos. No melhor hardware comum , eles estimam suas classificações no FIDE 3200. Isso é tão alto que apenas os melhores humanos têm uma pequena chance de não perder.
Considere o que isso significa; I (USCF 1650-ish) tem nenhuma chance contra uma pessoa (por exemplo, USCF 2050), que tem nenhuma chance contra uma pessoa (por exemplo, USCF 2450) que tem um nenhuma chance contra uma pessoa (por exemplo, USCF 2850) que tem uma lasca de uma chance contra um programa comercial de primeira linha (FIDE 3200).
Assim, quando o Stockfish diz que um movimento é melhor que outro, eu costumo considerá-lo pelo valor nominal. Quando eu ligar as mesas de final de jogo, isso começará a anunciar companheiros de 30 anos, lol.
fonte
Mecanismos diferentes têm "escalas" diferentes para suas avaliações numéricas. Por exemplo, em uma posição típica no meio do jogo, com bastante jogo restante, quando Houdini diz +2,00 ou melhor, é altamente provável que as brancas tenham uma vantagem vencedora (embora mesmo aqui eu tenha incluído qualificações por um motivo). Mas considere: pode-se modificar o código fonte de Houdini e dobrar os valores absolutos de todos os números envolvidos nas avaliações; obtém-se um mecanismo de força idêntica que produz jogada idêntica, mas agora +4,00 significa o que +2,00 significava. Isso ilustra que não se deve esperar um limite numérico uniforme entre os mecanismos que normalmente indica uma vantagem vencedora.
Mais do que isso, no entanto, é importante entender que uma avaliação numérica de uma posição (em oposição a uma declaração direta de inevitável companheiro) nunca se traduz estritamente em "um jogo ganho", mesmo para um único motor fixo. Um ponto importante é que as avaliações numéricas não têm um "significado" claro em termos gerais de xadrez e são apenas um substituto para o pensamento sensível que é usado para guiar mecanicamente um mecanismo em direção a resultados geralmente desejáveis, influenciando a movimentação que ele seleciona em cada ponto no jogo; Nesta perspectiva, o que é mais importante para o jogo de um motor é apenas a diferença na avaliação atribuída a possíveis jogadas, em vez de algo sobre os valores absolutosenvolvidos. Os números são úteis para o próprio mecanismo, que precisa de algo tão concreto para tomar uma decisão sobre um movimento sobre o outro, mas nós, humanos, não devemos ser muito rápidos para entender melhor as magnitudes envolvidas em pensamentos como "+ X significa uma vitória ".
Em particular, quanto mais longe chegarmos ao final do jogo, em oposição a um meio-jogo, menos poderemos usar uma regra de ouro (como o meu +2,00 para Houdini nos meio-jogos acima) sobre um certo limite suficiente para uma vitória. Uma das principais razões para isso é a dificuldade que os motores têm de reconhecer fortalezas, onde uma abundância de material extra ainda não é suficiente para vencer. Por exemplo, quando eu alimento o Stockfish nessa posição,
depois de alguns minutos, pensou que estava dando uma avaliação de cerca de +7,00 e, em uma posição típica, quando Stockfish diz isso, você quase certamente tem uma vitória em suas mãos. No entanto, esse é um empate, e um humano pode ver isso facilmente quando o fato é que o preto pode embaralhar a torre entre f6 e h6, e assim (1) o peão-h é inútil e (2) o branco O rei nunca será capaz de ajudar a rainha branca a atacar. Eventualmente , o Stockfish também reconhecerá um empate aqui, uma vez que ele se defronta com 50 movimentos, digamos, ou finalmente fica sem movimentos diferentes para tentar e finalmente não pode evitar uma repetição, mas esses eventos estão bem abaixo da linha de profundidade da pesquisa.
A posição final do jogo da sua pergunta anterior à qual você se vinculou é semelhante a esse tipo de fortaleza, na medida em que os peões passados extra conectados que White tem lá são bons e tudo, mas, no final das contas, não o suficiente para vencer nessa posição. Se um mecanismo calculasse por tempo suficiente para ver o máximo de informações contidas nas bases de tabela, sua avaliação seria reduzida a 0, mas, enquanto isso, seu algoritmo de avaliação não tem nada melhor para continuar do que dar um + para isso material extra (que ainda não sabe que não tem sentido).
fonte
Penso que esta imagem descreve muito bem a situação. Foi criado a partir de jogos de 400k e considera apenas material simples.
Fonte: Vantagem do Peão, Porcentagem de Vitórias e ELO
fonte