Como a pesquisa de novidades funciona?

16

No presente artigo , o autor afirma que guiando a evolução pela novidade sozinho (sem metas explícitas) pode resolver os problemas ainda melhor do que usar metas explícitas. Em outras palavras, o uso de uma medida de novidade como uma função de adequação para um algoritmo genético funciona melhor do que uma função de adequação direcionada a objetivos. Como isso é possível?

rcpinto
fonte

Respostas:

7

Conforme explicado em uma resposta a esta pergunta da AI SE , os AGs são 'satisfatores' em vez de 'otimizadores' e tendem a não explorar regiões 'periféricas' do espaço de pesquisa. Em vez disso, a população tende a se agrupar em regiões 'razoavelmente boas' de acordo com a função de condicionamento físico.

Por outro lado, acredito que o pensamento é que a novidade oferece uma espécie de condicionamento dinâmico, tendendo a afastar a população de áreas descobertas anteriormente.

NietzscheanAI
fonte
6

A pesquisa de novidades seleciona "comportamento novo", por alguma definição de novidade dependente de domínio. Por exemplo, a novidade em um domínio de solução de labirinto pode ser "diferença de rota explorada". Eventualmente, serão encontradas redes que percorrem todas as rotas possíveis pelo labirinto, e você poderá selecionar a mais rápida. Isso funcionaria muito melhor do que um "objetivo" ingênuo, como a distância do objetivo, o que poderia facilmente resultar em ótimos locais que nunca resolvem o labirinto.

Dos Objetivos do Abandono: Evolução através da Busca da Novidade Sozinho (ênfase minha):

Na pesquisa de novidades, em vez de medir o progresso geral com uma função objetivo tradicional, a evolução emprega uma medida de novidade comportamental chamada métrica de novidade. De fato, uma pesquisa guiada por essa métrica realiza explicitamente o que a evolução natural faz passivamente, ou seja, acumula gradualmente novas formas que sobem na escada da complexidade.
Por exemplo, em um domínio de locomoção bípede, as tentativas iniciais podem simplesmente cair. A métrica de novidade recompensaria simplesmente cair de uma maneira diferente, independentemente de estar mais próxima do comportamento objetivo ou não. Por outro lado, uma função objetiva pode recompensar explicitamente a queda mais distante, o que provavelmente não leva ao objetivo final de caminhar e, portanto, exemplifica um ótimo local enganoso. Por outro lado, na busca pela novidade, é mantido um conjunto de instâncias que representam as mais novas descobertas. Pesquisas posteriores surgem desses comportamentos representativos. Depois que algumas maneiras de cair são descobertas, a única maneira de ser recompensado é encontrar um comportamento que não caia imediatamente . Dessa maneira, a complexidade comportamental aumenta de baixo para cima.Eventualmente, para fazer algo novo, o bípede teria que caminhar com sucesso por alguma distância, mesmo que não seja um objetivo .

micimizar
fonte