Traduzindo o problema de aprendizado de máquina na estrutura de regressão

12

Suponha que eu tenha um painel de variáveis ​​explicativas Xit , para i=1...N , t=1...T , bem como um vector de variáveis dependentes resultado binário YiT . Então Y é observado apenas no tempo final T e não em nenhum momento anterior. O caso totalmente geral é ter múltiplos Xijt para j=1...K para cada unidade i a cada momento t, mas vamos nos concentrar no caso por questões de brevidade.K=1

Aplicações desses "desequilibrados" pares X , Y ) com variáveis ​​explicativas correlacionadas temporais são, por exemplo (preços diários das ações, dividendos trimestrais), (boletins meteorológicos diários, furacões anuais) ou (características da posição do xadrez após cada movimento, resultado de ganhos / perdas em final do jogo).(X,Y)

Estou interessado nos coeficientes de regressão (possivelmente não lineares) para fazer a previsão de Y i t , sabendo que nos dados de treinamento, dadas observações precoces de X i t para t < T , isso leva ao resultado final Y i TβtYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Vindo de uma experiência em econometria, não vi muita modelagem de regressão aplicada a esses dados. OTOH, vi as seguintes técnicas de aprendizado de máquina sendo aplicadas a esses dados:

  1. fazendo aprendizado supervisionado em todo o conjunto de dados, por exemplo, minimizando

i,t12(Yitf(Xitβt))2

simplesmente extrapolando / imputando o observado a todos os pontos anteriores no tempoY

YitYiT,t=1...T1

Isso parece "errado" porque não levará em consideração a correlação temporal entre os diferentes pontos no tempo.

  1. realizando aprendizado de reforço , como diferença temporal, com o parâmetro de aprendizado e o parâmetro de desconto λ , e resolvendo recursivamente o β t através da propagação reversa a partir de t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

com o gradiente de f ( ) com respeito ao β .βY^f()β

Isso parece mais "correto" porque leva em conta a estrutura temporal, mas os parâmetros e λ são uma espécie de "ad hoc".αλ

Pergunta : existe literatura sobre como mapear as técnicas de aprendizado supervisionado / reforçado acima em uma estrutura de regressão, conforme usado em estatística / econometria clássica? Em particular, eu gostaria de poder estimar os parâmetros em "one go" (ou seja, para todos t = 1 ... Tβtt=1...T simultaneamente) fazendo mínimos quadrados (não lineares) ou probabilidade máxima em modelos como Como

YiT=f(t=1TXitβt)+ϵi

Eu também estaria interessado em saber se a diferença temporal está aprendendo os meta-parâmetros e λαλ poderia ser recuperada a partir de uma formulação de probabilidade máxima.

TemplateRex
fonte
Você poderia esclarecer a formulação no terceiro parágrafo? Você escreve que deseja prever partir de X i t , t < T , mas a fórmula a seguir sugere que você deseja prever Y i t . YiTXitt<TYit
NRH 04/09/2015
@NRH na verdade, eu só observar , mas o que eu vi na literatura sobre aprendizagem supervisionada é que eles imputar a unobserved Y i t ser igual a Y i T e, em seguida, fazer o ajuste para realmente explicar este falso Y i t a partir de X i t (isto é feito em aplicações que jogam o jogo, em que uma função de avaliação para cada posição é montado sobre o resultado final do jogo). Desculpe se isso não ficou claro em minha formulação inicial. Em qualquer caso, Y seria o "resultado" prevista (em aplicações de jogos) dado observados eventos XYiTYitYiTYitXitY^it . Xit
TemplateRex
Entendo a configuração e o que você observa, mas sua formulação na pergunta não é clara. Deseja treinar um modelo para prever conforme você escreve em palavras, ou deseja treinar um modelo para prever Y i t para todos os t, como sugerem as fórmulas? Talvez seja apenas um erro de digitação. Quando você escreve "... previsão de Y i T ..." você quer dizer "... previsão de Y i t ..."? YiTYittYiTYit
NRH 06/09
não está claro por que você quer fazer isso. Se você puder explicar a aplicação prática real, poderá obter respostas mais claras. Em geral, a melhor previsão para cada período de tempo só vai estar fazendo uma regressão de nos dados disponíveis X 1 , ... , X t separadamente para cada t. Não é óbvio que uma abordagem simultânea tenha algum benefício. Eu acho que você precisa especificar o modelo estatístico para seu conjunto de dados e, talvez, os benefícios sejam mais claros. YTX1,,Xt
Seanv507
@NRH, sim, eu quero prever de X i t sabendo que ele leva a resultado Y i T nos dados de treinamento, a fim de tomar medidas mais eficientes para dados de teste onde eu também observar X i t , mas ainda não observou o resultado. Atualizará minha formulação. YitXitYiTXit
TemplateRex

Respostas:

1

The description of the problem is not entirely clear to me so I try to guess some assumptions. If this does not answer your question, it might at least help to clarify the issues further.

YTt<TXττ>t

YtX1,,Xt at time t<T the conditional expectation Yt=E[YTX1,,Xt] is the "best predictor" of YT in the L2 sense. In case you really want to predict the conditional expectation ordinary least squares is the method of choice for practical estimation.

Furthermore, I do not understand your remark about the correlations not being reflected by the regression based on the X1,,Xt. This incorporates everything you know until t including the correlations between your observations.

So summing up and phrasing this as an answer: If you want to make an optimal prediction in the L2 sense, based only on data observed until t<T you can use least squares regression.

g g
fonte
in the training data, I want to use the fact that a given Xit observation will statistically lead to outcome YiT in order to predict Y^it for test data where I don't observe YiT until afterwards. If e.g. you know that after 3 windy days it will likely rain on day 7, you want to use that information to tell people to bring umbrellas after the weekend after a few windy days before.
TemplateRex
0

The advantage of temporal differences is that they allow you to learn from incomplete episodes. So, sequences where you haven't got to the the final Y can be still be used to fit the model; subsequent estimates are used instead. The effect is similar to hidden data imputation; implicitly you are imputing the remainder of the sequence according to your current model.
Temporal difference models are normally trained by stochastic gradient descent. α controls the learning rate. Too high and the method will diverge. Too low and convergence to a local optimum will be very slow. But convergence should always be to the same model.
Here, γ controls the relative effort given to predictions depending on how far they are from the end of a sequence. Because these sequences are finite in length, you can set this to γ=1 , to put the same weight on all estimates.

nsweeney
fonte
This does not really answer the question: e.g. how can the α and γ parameters be set optimally in a maximum-likelihood framework?
TemplateRex
α controls the speed of convergence but should has no effect on the final model or the likelihood of that model. In practice, I set it by trial and error. You have to set γ as it controls the relative importance of short term versus long term predictions if the same parameters are used across short and long predictions. That will be application specific depending on what you want to do with the predictions.
nsweeney