Suponha que eu tenha um painel de variáveis explicativas , para , , bem como um vector de variáveis dependentes resultado binário . Então é observado apenas no tempo final e não em nenhum momento anterior. O caso totalmente geral é ter múltiplos para para cada unidade a cada momento , mas vamos nos concentrar no caso por questões de brevidade.
Aplicações desses "desequilibrados" pares X , Y ) com variáveis explicativas correlacionadas temporais são, por exemplo (preços diários das ações, dividendos trimestrais), (boletins meteorológicos diários, furacões anuais) ou (características da posição do xadrez após cada movimento, resultado de ganhos / perdas em final do jogo).
Estou interessado nos coeficientes de regressão (possivelmente não lineares) para fazer a previsão de Y i t , sabendo que nos dados de treinamento, dadas observações precoces de X i t para t < T , isso leva ao resultado final Y i T
Vindo de uma experiência em econometria, não vi muita modelagem de regressão aplicada a esses dados. OTOH, vi as seguintes técnicas de aprendizado de máquina sendo aplicadas a esses dados:
- fazendo aprendizado supervisionado em todo o conjunto de dados, por exemplo, minimizando
simplesmente extrapolando / imputando o observado a todos os pontos anteriores no tempo
Isso parece "errado" porque não levará em consideração a correlação temporal entre os diferentes pontos no tempo.
- realizando aprendizado de reforço , como diferença temporal, com o parâmetro de aprendizado e o parâmetro de desconto λ , e resolvendo recursivamente o β t através da propagação reversa a partir de t = T
com o gradiente de f ( ) com respeito ao β .
Isso parece mais "correto" porque leva em conta a estrutura temporal, mas os parâmetros e λ são uma espécie de "ad hoc".
Pergunta : existe literatura sobre como mapear as técnicas de aprendizado supervisionado / reforçado acima em uma estrutura de regressão, conforme usado em estatística / econometria clássica? Em particular, eu gostaria de poder estimar os parâmetros em "one go" (ou seja, para todos t = 1 ... T simultaneamente) fazendo mínimos quadrados (não lineares) ou probabilidade máxima em modelos como Como
Eu também estaria interessado em saber se a diferença temporal está aprendendo os meta-parâmetros e λ poderia ser recuperada a partir de uma formulação de probabilidade máxima.
fonte
Respostas:
The description of the problem is not entirely clear to me so I try to guess some assumptions. If this does not answer your question, it might at least help to clarify the issues further.
Furthermore, I do not understand your remark about the correlations not being reflected by the regression based on theX1,…,Xt . This incorporates everything you know until t including the correlations between your observations.
So summing up and phrasing this as an answer: If you want to make an optimal prediction in the L2 sense, based only on data observed untilt<T you can use least squares regression.
fonte
The advantage of temporal differences is that they allow you to learn from incomplete episodes. So, sequences where you haven't got to the the final Y can be still be used to fit the model; subsequent estimates are used instead. The effect is similar to hidden data imputation; implicitly you are imputing the remainder of the sequence according to your current model.α controls the learning rate. Too high and the method will diverge. Too low and convergence to a local optimum will be very slow. But convergence should always be to the same model.γ controls the relative effort given to predictions depending on how far they are from the end of a sequence. Because these sequences are finite in length, you can set this to γ=1 , to put the same weight on all estimates.
Temporal difference models are normally trained by stochastic gradient descent.
Here,
fonte