Justificação para o uso de pesos geométricos na regressão linear

8

Na aplicação prática, tenho testemunhado frequentemente a prática a seguir. Observa-se um par longo do tempo. Pressupondo que eles estejam linearmente relacionados, regredimos um contra o outro usando pesos geométricos em vez de uniformes, ou seja, o OLS minimiza para alguns . Isso é muito intuitivo: pesamos menos observações no passado. Comparado a um esquema de ponderação de "vagão coberto", ele também tem a vantagem de produzir estimativas que mudam suavemente ao longo do tempo, porque as observações não caem abruptamente da janela de observação. No entanto, gostaria de saber se existe um modelo probabilístico subjacente à relação entre e(xt,yt)

t=0kt(yTtaxTtb)2
k(0,1)xtyt que justifica essa escolha.
gappy
fonte
Outro dia, alguém em algum lugar de um dos sites relacionados do StackExchange estava comentando esse esquema como "filtro Kalman do pobre homem". Se eu conseguir descobrir o link, eu o adicionarei aqui.
Dirk Eddelbuettel
Obrigado. Gostaria de ver como isso pode ser reformulado como um filtro Kalman.
gappy 14/05
1
Duvido que exista uma derivação formal, daí as citações em torno da versão pobre dos parâmetros adaptativos.
Dirk Eddelbuettel

Respostas:

6

"Relacionado linearmente" geralmente significa

yt=axt+b+εt

para constante , e iid erros aleatórios , . Uma das razões seria fazer uma estimativa OLS exponencialmente ponderada é a suspeita de que e pode ser eles próprios (lentamente) variando com o tempo, também. Assim, realmente pensamos que o modelo correto éabεtt=0,1,,Tab

yt=α(t)xt+β(t)+εt

para desconhecidos funções e que variam lentamente (se em tudo) ao longo do tempo e nós estamos interessados em estimar seus valores atuais, e . Vamos supor que essas funções sejam suaves, para que possamos aplicar o Teorema de Taylor. Isto afirma queα(t)β(t)a=αTb=βT

α(t)=α(T)+α(tα,t)(tT)

para alguns e da mesma forma para . Pensamos em e como sendo os valores mais recentes, e , respectivamente. Use isto para reexprimir os resíduos:tα,t,0tα,t<Tβ(t)abαTβT

yt(axt+b)=α(tα,t)(tT)xt+β(tβ,t)(tT)+εt.

Agora, muita coisa precisa acontecer. Consideraremos todo o lado direito como aleatório. Sua variação é a de mais vezes a variação de mais vezes a variação de . Essas duas variações são completamente desconhecidas, mas ( abracadabra ) vamos pensar nelas como resultado de algum tipo de processo (estocástico) no qual "erros" ou "variações" possivelmente sistemáticos (não aleatórios, mas ainda desconhecidos) são acumulados de uma só vez. o outro. Isso sugeriria uma exponencialεtxt2(tT)2α(tα,t)(tT)2β(tβ,t)mudança nessas variações ao longo do tempo. Agora, basta simplificar a expressão explícita (mas essencialmente inútil) do lado direito e absorver os termos quadráticos no exponencial (já que estamos agitando nossas mãos de maneira tão violenta), para obter(tT)2

yt(axt+b)=δt

com a variação de igual a para alguma constante . Ignorar possíveis correlações temporais entre os e assumir que elas tenham distribuições normais fornece uma probabilidade de log para os dados proporcionais aδtexp(κ(tT))κδt

t=0Tkt(yTtaxTtb)2

(mais uma constante irrelevante dependendo apenas de ) com . O procedimento OLS ponderado exponencialmente, portanto, maximiza a probabilidade, assumindo que sabemos o valor de (como um procedimento de probabilidade de perfil).kk=expκk

Embora toda essa derivação seja claramente fantasiosa, ela mostra como e aproximadamente em que grau a ponderação exponencial tenta lidar com possíveis alterações nos parâmetros lineares ao longo do tempo. Relaciona o parâmetro à taxa temporal de mudança desses parâmetros.k

whuber
fonte
Concordo com a parte de acenar com a mão ... Estou bem com suposições simplificadoras sobre a forma variável no tempo dos parâmetros de regressão, desde que sejam claramente declarados. Obviamente, sinta-se à vontade para fazer referência à literatura existente.
gappy 14/05
@ whuber - eu diria que a regressão ponderada exponencialmente é uma aproximação muito grosseira para o modelo específico que você descreveu . Mas poderia muito bem ser uma solução exata para um modelo diferente. Para o modelo que você descreve, seria muito melhor incluir o componente heterocedástico devido à variação em (ou suponha que ele não tenha variação e você esteja lidando com interceptação aleatória). Você está fazendo parecer que a ponderação geométrica é sempre abaixo do ideal, o que não é. Depende das suas informações anteriores. α(t)
probabilityislogic
@prob Concordo, mas não consegui encontrar um modelo que justifique exatamente essa abordagem, então tive que me contentar em apontar algumas das coisas que esse modelo pode acarretar. Percebo que sua resposta também não progride nessa direção ;-).
whuber
@ whuber - e onde faço uma aproximação na minha equação para que não seja exata?
probabilityislogic
@probability Você não justifica: você simplesmente anuncia o resultado que eu já havia publicado. Em outras palavras, você observa que, quando o OLS minimiza essa expressão, ele realmente faz mínimos quadrados ponderados. OK, mas isso não é perfeitamente óbvio? O que justifica essa escolha de pesos? De onde eles vêm?
whuber
1

Eu acho que você realmente quer dizer como seu peso, ou que . Se e tomamos como o peso, então . Portanto, isso realmente pesa menos a observação atual. Por exemplo, se considerarmos então e assim por diante.ktk>10<k<1ktk=k=0.5k0=1,k1=2,k2=4,,k20106

Isso é apenas algo que você sabe sobre como a variação muda a cada observação (ela aumenta à medida que você se move para trás no tempo a partir do tempo ):T

(yTt|xTt,a,b,k,s)Normal(axTt+b,s2kt)

Denotando e temos uma probabilidade conjunta de log de:Y{yT,yT1,,y1}X{xT,xT1,,x1}

log[p(Y|X,a,b,k,s)]=12(Tlog(2πs2kt)+t=0T1(yTtaxTtb)2s2kt)

Portanto, para obter as estimativas de probabilidade máxima de e você tem a seguinte função objetivo:ab

t=0T1kt(yTtaxTtb)2

Qual é o que você procura

probabilityislogic
fonte