Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo?

Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo? Parece-me que qualquer aluno sem modelo, aprendendo por tentativa e erro, poderia ser reformulado como baseado em modelo. Nesse caso, quando os alunos sem modelo seriam