Avaliações por computador: Quão confiáveis são?

14

Fritz 12 com Rybka deu a um amigo meu uma avaliação de +3 para o branco nesta posição de final de jogo ,

Branco para mover

que acabou por ser um empate. Mas ouvi dizer que +3 de um computador significa uma vitória garantida com um jogo perfeito. Acabei de ouvir errado? Como as avaliações por computador devem ser interpretadas em geral? O que as vantagens de abertura de <0,5 significam?

analysis engines software statistics evaluation chubbycantorset
fonte

3

Eu contestaria o comentário "vitória garantida". O número da avaliação é um indicador heurístico, basicamente um "sentimento" que o computador tem para a posição. Os jogos finais podem ter resultados "surpreendentes" e, a menos que o computador tenha sido programado para detectar todos os padrões possíveis (ou ele possa calcular todo o caminho), ele perderá alguns. Em outras palavras, se +3 fosse realmente garantido, não seria +3, seria + infinito.

Daniel B

Para constar, verifiquei isso com as bases de mesa de 7 peças da Lichess, e é, de fato, um empate.

PhishMaster

8

Há algumas coisas aqui.

Primeiro, cada programa terá sua própria maneira de avaliar posições, para que as pontuações não possam ser comparadas diretamente. Por exemplo, eu estava executando o StockFish contra o Rybka recentemente e constatei que as pontuações do Stockfish eram aproximadamente o dobro das do Rybka. Fiquei surpreso com isso, mas é bem claro que uma pontuação de 1 nem sempre significa "1 peão". Eu acho que o que devemos olhar é como a pontuação muda. Outra curiosidade que vi ontem (ao responder uma de suas outras perguntas, coincidentemente) foi que o algoritmo de avaliação do Stockfish não gosta muito de números ímpares. De fato, a maioria das pontuações eram múltiplos de 0,04. Dado que a magnitude do valor é arbitrária, eu não assumiria que determinado valor significa "uma vitória certa", a menos que a máquina esteja afirmando que encontrou um parceiro.

Segundo, as bases de tabela de jogos finais foram criadas porque a resolução de jogos finais requer muita profundidade de pesquisa. Computadores jogando em velocidades de torneios simplesmente não funcionam bem. Alguns dias atrás, eu estava trabalhando em um jogo diferente e anunciei neste site que um lado tinha uma vantagem. Ed usou uma base de mesa para mostrar que não havia mais mistério na posição - ela foi teoricamente traçada. Claro, há uma enorme diferença entre empate com jogo perfeito e empate; os jogadores têm que encontrar os movimentos certos.

O pequeno valor geralmente dado a White nas fases iniciais do jogo significa basicamente que as brancas podem reivindicar imóveis mais valiosos. Por exemplo, no movimento 1, as brancas podem reivindicar e4 e atacar e5 e f5. O preto pode combater. Mas então as brancas podem jogar Nc3 e atacar / reforçar a4, b5, d5 e e4. Mas as pretas podem combater. Então isso significa muito pouco.

Finalmente, para responder à pergunta na sua linha de assunto - as avaliações são muito confiáveis, pois são baseadas em fatos concretos e em uma impressionante profundidade de pesquisa. Obviamente, as máquinas não são infalíveis. Mas nós, jogadores b, devemos lembrar que o Stockfish (ou Rybka) joga com os pontos fortes da GM em equipamentos modestos. No melhor hardware comum , eles estimam suas classificações no FIDE 3200. Isso é tão alto que apenas os melhores humanos têm uma pequena chance de não perder.

Considere o que isso significa; I (USCF 1650-ish) tem nenhuma chance contra uma pessoa (por exemplo, USCF 2050), que tem nenhuma chance contra uma pessoa (por exemplo, USCF 2450) que tem um nenhuma chance contra uma pessoa (por exemplo, USCF 2850) que tem uma lasca de uma chance contra um programa comercial de primeira linha (FIDE 3200).

Assim, quando o Stockfish diz que um movimento é melhor que outro, eu costumo considerá-lo pelo valor nominal. Quando eu ligar as mesas de final de jogo, isso começará a anunciar companheiros de 30 anos, lol.

Tony Ennis
fonte

1

Resposta muito boa. Eu sempre pensei que uma avaliação de 1 significava o valor de 1 peão de material. Além disso, o chesstempo diz que as melhores jogadas em seus problemas são aquelas que ganham pelo menos 2 peões em material, então eu considerei uma avaliação de motor de +2 ou mais para ganhar, independentemente da fase de um jogo. No entanto, eu encontrei a análise do bacalhau com defeito antes e vi como ele não consegue avaliar os jogos finais corretamente. Nessa nota, você sabe onde posso encontrar uma base de tabela de jogos finais?

chubbycantorset

Aqui está a base de tabela on-line de 6 homens que Ed postou: k4it.de/index.php?topic=egtb&lang=pt

Tony Ennis

+1 em "Eu não assumiria que determinado valor significa" uma vitória garantida ", a menos que a máquina afirme ter encontrado um parceiro."

ferit 01/01

14

Mecanismos diferentes têm "escalas" diferentes para suas avaliações numéricas. Por exemplo, em uma posição típica no meio do jogo, com bastante jogo restante, quando Houdini diz +2,00 ou melhor, é altamente provável que as brancas tenham uma vantagem vencedora (embora mesmo aqui eu tenha incluído qualificações por um motivo). Mas considere: pode-se modificar o código fonte de Houdini e dobrar os valores absolutos de todos os números envolvidos nas avaliações; obtém-se um mecanismo de força idêntica que produz jogada idêntica, mas agora +4,00 significa o que +2,00 significava. Isso ilustra que não se deve esperar um limite numérico uniforme entre os mecanismos que normalmente indica uma vantagem vencedora.

Mais do que isso, no entanto, é importante entender que uma avaliação numérica de uma posição (em oposição a uma declaração direta de inevitável companheiro) nunca se traduz estritamente em "um jogo ganho", mesmo para um único motor fixo. Um ponto importante é que as avaliações numéricas não têm um "significado" claro em termos gerais de xadrez e são apenas um substituto para o pensamento sensível que é usado para guiar mecanicamente um mecanismo em direção a resultados geralmente desejáveis, influenciando a movimentação que ele seleciona em cada ponto no jogo; Nesta perspectiva, o que é mais importante para o jogo de um motor é apenas a diferença na avaliação atribuída a possíveis jogadas, em vez de algo sobre os valores absolutosenvolvidos. Os números são úteis para o próprio mecanismo, que precisa de algo tão concreto para tomar uma decisão sobre um movimento sobre o outro, mas nós, humanos, não devemos ser muito rápidos para entender melhor as magnitudes envolvidas em pensamentos como "+ X significa uma vitória ".

Em particular, quanto mais longe chegarmos ao final do jogo, em oposição a um meio-jogo, menos poderemos usar uma regra de ouro (como o meu +2,00 para Houdini nos meio-jogos acima) sobre um certo limite suficiente para uma vitória. Uma das principais razões para isso é a dificuldade que os motores têm de reconhecer fortalezas, onde uma abundância de material extra ainda não é suficiente para vencer. Por exemplo, quando eu alimento o Stockfish nessa posição,

NN - NN

depois de alguns minutos, pensou que estava dando uma avaliação de cerca de +7,00 e, em uma posição típica, quando Stockfish diz isso, você quase certamente tem uma vitória em suas mãos. No entanto, esse é um empate, e um humano pode ver isso facilmente quando o fato é que o preto pode embaralhar a torre entre f6 e h6, e assim (1) o peão-h é inútil e (2) o branco O rei nunca será capaz de ajudar a rainha branca a atacar. Eventualmente , o Stockfish também reconhecerá um empate aqui, uma vez que ele se defronta com 50 movimentos, digamos, ou finalmente fica sem movimentos diferentes para tentar e finalmente não pode evitar uma repetição, mas esses eventos estão bem abaixo da linha de profundidade da pesquisa.

A posição final do jogo da sua pergunta anterior à qual você se vinculou é semelhante a esse tipo de fortaleza, na medida em que os peões passados extra conectados que White tem lá são bons e tudo, mas, no final das contas, não o suficiente para vencer nessa posição. Se um mecanismo calculasse por tempo suficiente para ver o máximo de informações contidas nas bases de tabela, sua avaliação seria reduzida a 0, mas, enquanto isso, seu algoritmo de avaliação não tem nada melhor para continuar do que dar um + para isso material extra (que ainda não sabe que não tem sentido).

ETD
fonte

+1 para "Mais do que isso, no entanto, é importante entender que uma avaliação de mecanismo numérico de uma posição (em oposição a uma declaração direta de companheiro inevitável) nunca se traduz estritamente em um jogo ganho"

ferit

8

Penso que esta imagem descreve muito bem a situação. Foi criado a partir de jogos de 400k e considera apenas material simples.

Probabilidade de ganhar / vantagem do peão

Fonte: Vantagem do Peão, Porcentagem de Vitórias e ELO

Thomas Ahle
fonte

1

Boa contribuição! +1

ferit 01/01

@ Thomas Ahle: O gráfico é interessante. Mas o artigo original não está mais disponível, o link wikispaces caiu tristemente. Você se lembra do significado exato de W = Win Probability? Foi vitória x derrota ignorando os empates? Ou foi a "pontuação esperada" levando em consideração os empates?

Diedrsch 27/09/18

@Diedrsch Eu atualizei o link

Thomas Ahle

Avaliações por computador: Quão confiáveis ​​são?

Respostas:

Avaliações por computador: Quão confiáveis são?