Estou tentando utilizar a regressão de RF para fazer previsões sobre o desempenho de uma fábrica de papel.
Eu tenho dados minuto a minuto para as entradas (taxa e quantidade de polpa de madeira entrando etc ...), bem como para o desempenho da máquina (papel produzido, energia consumida pela máquina) e estou procurando fazer previsões em 10 minutos adiante nas variáveis de desempenho.
Eu tenho 12 meses de dados, portanto, os separamos em 11 meses para o conjunto de treinamento e o último mês para testes.
Até agora, criei 10 novos recursos com valores defasados de 1 a 10 minutos para cada uma das variáveis de desempenho e os usei, assim como as entradas, para fazer previsões. O desempenho no conjunto de testes foi muito bom (o sistema é bastante previsível), mas estou preocupado que esteja perdendo algo em minha abordagem.
Por exemplo, neste artigo , os autores declaram sua abordagem ao testar a capacidade preditiva de seu modelo de floresta aleatória:
A simulação prossegue adicionando iterativamente uma nova semana de dados, treinando um novo modelo com base nos dados atualizados e prevendo o número de surtos da semana seguinte
Como isso difere da utilização de dados "posteriores" na série temporal como teste? Devo validar meu modelo de regressão de RF com essa abordagem e também no conjunto de dados de teste? Além disso, esse tipo de abordagem 'auto-regressiva' da regressão aleatória da floresta é válida para séries temporais, e eu preciso criar tantas variáveis atrasadas se estiver interessado em uma previsão daqui a 10 minutos?
Respostas:
A abordagem que você cita é chamada de previsão de "origem rotativa": a origem a partir da qual projetamos é "antecipada" e os dados de treinamento são atualizados com as novas informações disponíveis. A abordagem mais simples é a "previsão de origem única", onde escolhemos uma única origem.
A vantagem da previsão de origem rotativa é que ela simula um sistema de previsão ao longo do tempo . Na previsão de origem única, podemos escolher, por acaso, uma origem em que nosso sistema funcione muito bem (ou muito mal), o que pode nos dar uma idéia incorreta do desempenho do sistema.
Uma desvantagem da previsão de origem rotativa é seu maior requisito de dados. Se quisermos prever 10 etapas com pelo menos 50 observações históricas, podemos fazer isso de origem única com 60 pontos de dados no geral. Mas se queremos fazer 10 origens contínuas sobrepostas, precisamos de 70 pontos de dados.
A outra desvantagem é, obviamente, sua maior complexidade.
Desnecessário dizer que você também não deve usar dados "posteriores" na previsão de origem rotativa, mas somente dados anteriores à origem que você está usando em cada iteração.
Se você tiver dados suficientes, uma avaliação de origem rotativa sempre inspirará mais confiança em mim do que uma única avaliação de origem, porque, esperamos, calcule a média do impacto da origem.
Sim, a previsão de rolagem vs. previsão de origem única é válida para qualquer exercício preditivo. Não depende se você usa florestas aleatórias ou ARIMA ou qualquer outra coisa.
Se você precisa de suas variáveis atrasadas, é algo que não podemos aconselhá-lo. Talvez seja melhor conversar com um especialista no assunto, que também pode sugerir outras informações. Apenas tente o seu RF com entradas atrasadas vs. sem. E também compare com benchmarks padrão como ARIMA ou ETS ou métodos ainda mais simples, que podem ser surpreendentemente difíceis de superar .
fonte