Estado estacionário da conjectura a partir das propriedades de limite

3

A questão está relacionada a este tópico . Gostaria de obter um estado estável único para um problema de controle ideal.

Considere o seguinte programa onde indica preferência de tempo, é o valor e uma função objetiva. é a variável de estado e o controle. O estado é governado por . A equação de Hamilton-Jacobi-Bellman lê

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()xXuU=[0,1]f()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,)

Agora suponha que o controle de feedback seja dado por

u(x)=11+V(x)=argmaxu[F(x,u)+V(x)f(x,u)],xX.

Suponha que exista um ponto fixo em e possamos derivar uma representação alternativa para o controle ideal no ponto fixo com x=x~

u(x~)=ρ+u(x~)ρ+u(x~)+1.

Suponha que adicionalmente o HJB no ponto fixo seja dado por

ρV(x)=ln(11+V(x))+111+V(x).

Se aproxima de zero, devemos ter . Por outro lado, se aproxima do infinito, devemos ter pela definição da função de valor e, assim, novamente . Resumindo, temos as seguintes propriedades em equilíbrio: ρ0V(x~)=0u(x~)=1u(x~)=ρV(x~)=0V(x~)=0u(x~)=1

limρ0u(x~)=limρu(x~)=1.

Bem, isso está em desacordo com

u(x~)ρ=1(ρ+u(x~)+1)2>0

sendo uma função crescente estritamente monóton, contradizendo nosso resultado anterior. Observe, no entanto, que podemos resolver o problema observando

limu(x~)u(x~)ρ=0

Então, podemos finalmente conjeturar que devemos ter no ponto fixo tal modo que u(x~)=u(x~)=1

ρV(x~)=ln(1)+11V(x~)=0.
sem noção
fonte
Não sei ao certo como você chega à expressãou(x~)ρ
Alecos Papadopoulos
Você está certo. Eu acho que deveria ler: onde o sinal é indeterminado e, portanto, minha argumentação é falha. u(x~)/ρ=(1+u(x~)/ρ)/(ρ+u(x~)+1)2
sem noção
Como vamos proceder? Devo postar isso como uma resposta de "resultado negativo" para que a postagem não permaneça na fila sem resposta ou você modificará de alguma forma a pergunta?
Alecos Papadopoulos
Provavelmente resultado negativo, porque não tenho idéia de como resolver o problema em questão. Acho que encontrei uma maneira diferente de mostrar que é um equilíbrio estável associado ao valor mais alto, uma vez que, pelo princípio de desvio único, não há incentivo para se desviar dessa estratégia específica. No entanto, meu cenário organizacional lida com dois agentes, sendo diferente daquele apresentado aqui. u(x~)=1
sem noção

Respostas:

1

Atualizando uma troca de comentários, um ponto crítico na pergunta é a expressão

u(x~)ρ=1(ρ+u(x~)+1)2

o que está errado, porque de

u(x~)=ρ+u(x~)ρ+u(x~)+1.

nós obtemos

u(x~)ρ=1+u(x~)/ρ(ρ+u(x~)+1)2

O OP observa que o sinal de é indeterinado e, portanto, não pode ser considerado monotonicamente crescente, e foi isso que dirigiu a fixação do estado estacionário.u(x~)/ρu(x~)/ρ

Alecos Papadopoulos
fonte