Incorporando variáveis ​​explicativas mais detalhadas ao longo do tempo

9

Estou tentando entender como posso modelar melhor uma variável onde, com o tempo, obtive preditores cada vez mais detalhados. Por exemplo, considere modelar taxas de recuperação em empréstimos inadimplentes. Suponha que tenhamos um conjunto de dados com 20 anos de dados e, nos primeiros 15 desses anos, apenas sabemos se o empréstimo foi garantido ou não, mas nada sobre as características desse colateral. Nos últimos cinco anos, no entanto, podemos dividir as garantias em uma série de categorias que, espera-se, sejam um bom indicador da taxa de recuperação.

Dada essa configuração, desejo ajustar um modelo aos dados, determinar medidas como a significância estatística dos preditores e prever com o modelo.

Em qual estrutura de dados ausentes isso se encaixa? Existem considerações especiais relacionadas ao fato de que as variáveis ​​explicativas mais detalhadas só se tornam disponíveis após um determinado momento, em vez de serem espalhadas pela amostra histórica?

Abiel
fonte

Respostas:

1

OK, a partir da experiência no uso de dados históricos, mais histórico pode fazer com que a regressão pareça melhor, mas se a previsão for o ponto do exercício, a resposta geral será avisada. No caso em que os dados refletem períodos em que o 'mundo' era muito diferente, a estabilidade das correlações é questionável. Isso ocorre principalmente na economia, onde mercados e regulamentações estão em constante evolução.

Isso vale também para o mercado imobiliário que, além disso, pode ter um ciclo longo. A invenção de títulos lastreados em hipotecas, por exemplo, transformou o mercado de hipotecas e abriu as comportas para originação de hipotecas e, infelizmente, também especulações (na verdade, havia toda uma classe de empréstimos de documentos com pouco ou nenhum valor, denominados empréstimos por empréstimos).

Os métodos que testam mudanças de regime podem ser especialmente valiosos para decidir de maneira não subjetiva quando excluir a história.

AJKOER
fonte
1

Normalmente, isso pode ser visto como um problema de valor de parâmetro limitado. Pelo que entendi, você tem um parâmetro menos informativo (garantia de qualidade desconhecida [Cu]) no início de seus dados e mais informativo (garantia com qualidade [Ch], média [Cm] ou [Cl] alta) em seus dados dados posteriores.

Se você acredita que os parâmetros não observados para o modelo não mudam ao longo do tempo, o método pode ser simples, considerando que as estimativas pontuais de cada um são Cl <Cm <Ch e Cl <= Cu <= Ch. A lógica é que Cl é o pior e Ch é o melhor; portanto, quando os dados são desconhecidos, eles devem estar entre ou iguais a esses. Se você deseja ser um pouco restritivo e presumir que nem todas as garantias foram de alta ou baixa qualidade durante os primeiros 15 anos, você pode assumir que Cl <Cu <Ch, o que torna significativamente mais simples a estimativa.

Matematicamente, eles podem ser estimados com algo como:

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(β4)Ch=exp(β1)+exp(β2)+exp(β3)

Onde a função logit em Cu restringe o valor entre Cl e Ch sem restringi-lo em relação a Cm. (Outras funções que delimitam entre 0 e 1 também podem ser usadas.)

Outra diferença no modelo deve ser que a variação deve ser estruturada de modo que a variação residual dependa do período porque as informações em cada período são diferentes.

Bill Denney
fonte