Como o AIC ou o BIC podem ser usados em vez da divisão trem / teste?

Recentemente, encontrei várias fontes "informais" que indicam que, em algumas circunstâncias, se usarmos o AIC ou o BIC para treinar um modelo de série temporal, não precisaremos dividir os dados em teste e treinamento - podemos usar todos os dados para treinamento. (As fontes incluem, entre outras, uma discussão no post de Rob Hyndman no CV , esta apresentação de Stanford ou a Seção 4 deste texto ).

Em particular, eles parecem indicar que o AIC ou o BIC podem ser usados quando o conjunto de dados é muito pequeno para permitir uma divisão de trem / teste.

O comentário de Rob Hyndman, por exemplo: "É muito mais eficiente usar o AIC / BIC do que usar conjuntos de testes ou CV, e isso se torna essencial para séries temporais curtas, onde não há dados suficientes para fazer o contrário".

Não consigo, no entanto, encontrar textos ou documentos que discutam isso em detalhes.

Uma coisa que me intriga especialmente é que o AIC e o BIC tendem assintoticamente à validação cruzada, o que significa que, se possível, eles substituiriam o CV por grandes conjuntos de dados - o que contraria a ideia de serem úteis para pequenos conjuntos de dados.

Alguém pode me indicar uma discussão formal (capítulos de livros, artigos, tutoriais) dessa idéia?

time-series cross-validation aic train bic Skander H.
fonte

No capítulo 5.5 deste livro , eles discutem como surgem muitos desses critérios de seleção de modelos. Eles começam com o critério FPE da Akaike para modelos de RA e depois discutem AIC, AICc e BIC. Eles percorrem as derivações completamente.

O que eles têm em comum é que eles investigam o que acontece quando você usa alguns dados observados na amostra para estimar os parâmetros do modelo e, em seguida, analisa alguma função de perda (erro médio de previsão quadrática ou divergência de KL) em alguns não observados / dados hipotéticos fora da amostra $\{X_t\}$ $\{Y_t\}$ resultante do uso do modelo estimado nesses novos dados. As principais idéias são: a) você aceita a expectativa com relação a todos os dados e 2) usa alguns resultados assintóticos para obter expressões para algumas das expectativas. A quantidade de (1) fornece o desempenho geral esperado, mas (2) assume que você possui muito mais dados do que realmente possui. Não sou especialista, mas presumo que as abordagens de validação cruzada também atinjam essas medidas de desempenho; mas, em vez de considerar hipotéticos os dados fora da amostra, eles usam dados reais que foram separados dos dados de treinamento.

O exemplo mais simples é o critério do FPE. Suponha que você estime seu modelo de recuperação de dados em todos os dados (como o conjunto de testes) e obtenha . Em seguida, a perda esperada nos dados não observados (é hipotética, não é dividida como na validação cruzada) é $\{\hat{\phi}_i\}_i$ $\{Y_t\}$

\begin{aligned} E (Y_{n + 1} - {\hat{ϕ}}_{1} Y_{n} - \dots - {\hat{ϕ}}_{p} Y_{n + 1 - p})^{2} \\ = E (Y_{n + 1} - ϕ_{1} Y_{n} - \dots - ϕ_{p} Y_{n + 1 - p} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = E (Z_{t} + ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = σ^{2} + E [E [(({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} | {X_{t}}]] \\ = σ^{2} + E [\sum_{i = 1}^{p} \sum_{j = 1}^{p} ({\hat{ϕ}}_{i} - ϕ_{i}) ({\hat{ϕ}}_{j} - ϕ_{j}) E [Y_{n + 1 - i} Y_{n + 1 - j} | {X_{t}}]] \\ = σ^{2} + E [({\hat{ϕ}}_{p} - ϕ_{p})^{'} Γ_{p} ({\hat{ϕ}}_{p} - ϕ_{p})] \\ (typo in book: n^{- 1 / 2} should be n^{1 / 2}) & \approx σ^{2} (1 + \frac{p}{n}) \\ (n {\hat{σ}}^{2} / σ^{2} approx. χ_{n - p}^{2}) & \approx \frac{n {\hat{σ}}^{2}}{n - p} (1 + \frac{p}{n}) = {\hat{σ}}^{2} \frac{n + p}{n - p} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

Não conheço nenhum documento que compare empiricamente o desempenho desses critérios com técnicas de validação cruzada. No entanto, este livro fornece muitos recursos sobre como o FPE, AIC, AICc e BIC se comparam.

Taylor
fonte

Como o AIC ou o BIC podem ser usados ​​em vez da divisão trem / teste?

Respostas:

Como o AIC ou o BIC podem ser usados em vez da divisão trem / teste?