No aprendizado por reforço, a aproximação de função linear é freqüentemente usada quando grandes espaços de estado estão presentes. (Quando as tabelas de consulta se tornam inviáveis.)
A forma do valor com aproximação da função linear é dada por
onde são os pesos e são os recursos.
Os recursos são predefinidos pelo usuário. Minha pergunta é: como os pesos são atribuídos?
Eu li / baixei alguns slides de aula sobre learning com aproximação de função. A maioria deles apresenta slides sobre regressão linear a seguir. Como são apenas slides, eles tendem a ser incompletos. Gostaria de saber qual é a conexão / relação entre os dois tópicos.