Em matemática, a palavra operador pode se referir a vários conceitos distintos, mas relacionados. Um operador pode ser definido como uma função entre dois espaços vetoriais, pode ser definido como uma função em que o domínio e o codomain são iguais ou pode ser definido como uma função de funções (que são vetores) para outras funções (por por exemplo, o operador diferencial ), ou seja, uma função de alta ordem (se você estiver familiarizado com a programação funcional).
O que é o operador Bellman na aprendizagem por reforço (RL)? Por que precisamos disso? Como o operador Bellman está relacionado às equações de Bellman na RL?
Respostas:
A notação que vou usar é de duas palestras diferentes de David Silver e também é informada por esses slides .
A equação de Bellman esperada évπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′vπ(s′))(1)
Se deixarmosPπss′=∑a∈Aπ(a|s)Pass′(2)
e
Rπs=∑a∈Aπ(a|s)Ras(3)
então podemos reescrever (1) Como
Isso pode ser escrito em forma de matriz
Ou, de forma mais compacta,
Observe que os dois lados da( 6 ) estamos n tridimensionais. Aquin = | S| é o tamanho do espaço de estado. Podemos então definir um operadorTπ:Rn→Rn Como
para qualquerv ∈Rn . Este é o operador esperado da Bellman.
Da mesma forma, você pode reescrever a equação de otimização de Bellman
como o operador de otimização Bellman
Os operadores Bellman são "operadores", pois são mapeamentos de um ponto para outro no espaço vetorial de valores de estado,Rn .
Reescrever as equações de Bellman como operadores é útil para provar que certos algoritmos de programação dinâmica (por exemplo, iteração de política, iteração de valor) convergem para um ponto fixo exclusivo. Essa utilidade vem na forma de um corpo de trabalho existente na teoria dos operadores, o que nos permite fazer uso de propriedades especiais dos operadores Bellman.
Especificamente, o fato de os operadores Bellman serem contrações fornece resultados úteis que, para qualquer políticaπ e qualquer vetor inicial v ,
Ondevπ é o valor da política π e v∗ é o valor de uma política ideal π∗ . A prova é devida ao teorema do mapeamento de contração .
fonte