Por que o Q-Learning usa epsilon-greedy durante os testes?

No artigo da DeepMind sobre o Deep Q-Learning para videogames da Atari ( aqui ), eles usam um método épsilon-ganancioso para exploração durante o treinamento. Isso significa que, quando uma ação é selecionada no treinamento, ela é escolhida como a ação com o valor q mais alto ou uma ação aleatória....