Ajustes à previsão (regressão linear)

11

Divulgação completa: não sou estatístico nem pretendo ser um. Eu sou um humilde administrador de TI. Por favor, jogue gentil comigo. :)

Sou responsável por coletar e prever o uso do armazenamento em disco para nossa empresa. Coletamos nosso uso de armazenamento mensalmente e usamos uma regressão linear de doze meses simples para previsões (em outras palavras, apenas os doze meses anteriores de dados são considerados ao fazer uma projeção). Usamos essas informações para o planejamento de alocação e despesas de capital, por exemplo, "Com base nesse modelo, precisaremos comprar x quantidade se o armazenamento em y meses for atender às nossas necessidades". Tudo isso funciona bem o suficiente para atender às nossas necessidades.

Periodicamente, temos grandes movimentos únicos em nossos números que atrasam a previsão. Por exemplo, alguém encontra 500 GB de backups antigos que não são mais necessários e os exclui. Bom para eles para recuperar o espaço! No entanto, nossas previsões agora estão distorcidas por essa grande queda em um mês. Sempre aceitamos que uma queda como essa leva de 9 a 10 meses para sair dos modelos, mas isso pode levar muito tempo se estivermos entrando na temporada de planejamento de despesas de capital.

Gostaria de saber se existe uma maneira de lidar com essas variações únicas, de modo que os valores previstos não sejam tão impactados (por exemplo, a inclinação da linha não mude drasticamente), mas são levados em consideração (por exemplo, uma alteração única no valor y associado a um momento específico). Nossas primeiras tentativas de lidar com isso produziram alguns resultados feios (por exemplo, curvas de crescimento exponencial). Fazemos todo o nosso processamento no SQL Server, se isso importa.

sbrown
fonte
Excelente pergunta. Apenas um rápido esclarecimento. Deseja prever esses eventos ou, uma vez que eles ocorram, ajustar as previsões do modelo, considerando suas novas informações?
Matthew Drury
11
Certo, não está claro se você está tentando "suavizar" esses eventos raros, como o exemplo de 500 GB, para que eles não afetem seus resultados tanto ou se você está tentando contabilizá-los mais, pois deseja capturar quando ajustes de cadela para armazenar são feitos? A diferença é sutil: no primeiro, você quase ignora o novo ponto (evento raro), mas, no segundo, deseja enfatizar o ponto (evento raro). Se for o primeiro, a regressão robusta provavelmente é um método simples para você, pois você já está usando a regressão linear. Veja aqui: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
Além disso, você usa algum software para fazer suas previsões e usa intervalos de confiança?
StatsStudent
Eu posso adicionar um ajuste após o fato. De fato, na maioria das vezes, não saberei de um grande desvio até olhar os números do próximo mês e ver uma grande mudança. Não estou usando nenhum software para fazer as previsões; apenas um procedimento armazenado no SQL Server para calcular meus valores de regressão.
Sbrown
Reações rápidas: (a) Eu provavelmente ajustaria um AR (1) muito básico para alterações no uso do disco de log? Basicamente, você estimaria uma taxa de crescimento a longo prazo no uso do disco e a rapidez com que a taxa de crescimento no uso do disco volta a essa tendência após um choque. (aa) Você também pode usar outros dados e ajustar um VAR (regressão automática do vetor). (b) jogar fora todos os dados> 12 meses pode não ser a melhor coisa a se fazer. (c) OLS regular minimiza a soma dos quadrados. Você pode usar uma função de penalidade diferente (por exemplo, Huber), que é mais robusta para valores extremos.
Matthew Gunn

Respostas:

0

Aqui está uma sugestão simples. Não sei se funciona para você e talvez eu deva ter feito isso como um comentário, mas parece que você precisa de mais privilégios para fazer um comentário do que para responder.

Se bem entendi, os números que você está usando são as quantidades de armazenamento que você está usando a cada mês. Provavelmente, eles geralmente aumentam e você deseja prever qual será o valor em algum momento no futuro, se as tendências continuarem. Depois de perceber que sua grande alteração ocorreu (por exemplo, 500 GB foram lançados), você pode voltar e alterar os números dos meses anteriores (por exemplo, excluir 500 GB de todos eles)? Basicamente, o que você faria seria ajustar os números dos meses anteriores ao que deveriam ter sido, se você soubesse o que sabe agora.

É claro que eu não recomendo isso, a menos que você tenha certeza de que pode voltar às figuras antigas. Mas a previsão que você deseja fazer parece que pode até ser feita no Excel; nesse caso, você pode ter quantas versões desejar.

MikeG
fonte