Divisão de dados de séries temporais em conjuntos de treinamento / teste / validação

11

Qual é a melhor maneira de dividir dados de séries temporais em conjuntos de trem / teste / validação, onde o conjunto de validação seria usado para o ajuste de hiperparâmetros?

Temos três anos de dados de vendas diárias e nosso plano é usar 2015-2016 como dados de treinamento e, em seguida, amostrar aleatoriamente 10 semanas a partir dos dados de 2017 para serem usados como conjunto de validação e outras 10 semanas a partir de 2017 para o conjunto de teste. Em seguida, avançaremos em cada um dos dias no conjunto de teste e validação.

time-series cross-validation validation meraxes
fonte

7

Você deve usar uma divisão com base no tempo para evitar o viés do futuro. Treine / validação / teste nessa ordem por tempo.

O conjunto de testes deve ser a parte mais recente dos dados. É necessário simular uma situação em um ambiente de produção, em que, após o treinamento de um modelo, você avalia os dados provenientes após o momento da criação do modelo. A amostragem aleatória usada para validação e treinamento não é, portanto, uma boa ideia.

vento
fonte

4

Acho que a maneira mais completa de aproveitar seus dados de séries temporais para treinamento / validação / teste / previsão é:

A imagem é auto-explicativa? Caso contrário, comente e adicionarei mais texto ...

elemolotiv
fonte

3

Em vez de criar apenas um conjunto de conjunto de treinamento / validação, você pode criar mais desses conjuntos.

O primeiro conjunto de treinamento poderia ser, digamos, dados de 6 meses (primeiro semestre de 2015) e o conjunto de validação seria os próximos três meses (julho a agosto de 2015). O segundo conjunto de treinamento seria uma combinação do primeiro conjunto de treinamento e validação. O conjunto de validação é para os próximos três meses (setembro a outubro de 2015). E assim por diante.

Essa é uma variação da validação cruzada do K-Fold, onde os conjuntos de treinamento são uma combinação do conjunto de treinamento e validação anterior.

aathiraks
fonte

Divisão de dados de séries temporais em conjuntos de treinamento / teste / validação

Respostas: