Desenvolvimento de um modelo de série temporal apropriado para prever vendas com base no registro do mês passado

12

Eu tenho um negócio on-line há dois anos seguidos, então tenho meus dados de vendas mensais há cerca de dois anos. Meus negócios todos os meses certamente são afetados pelo balanço sazonal (apresenta melhor desempenho no Natal, etc.) e provavelmente por alguns outros fatores que não conheço.

Para prever melhor as vendas futuras e avaliar a eficácia de minha campanha de vendas ou o impacto de novos concorrentes, desejo desenvolver um modelo de série temporal apropriado para extrapolar meus dados de vendas atuais para o futuro. Isso é para que, quando comparo o resultado da minha previsão com o resultado real, eu possa testar quantitativamente a eficácia da minha campanha de vendas ou o impacto dos concorrentes.

Minha pergunta é: dado que tenho 2 anos de dados de vendas, existe alguma maneira de formular um modelo preditivo de série temporal para isso?

Nota: Estou mais interessado nos conceitos e teorias do plano de fundo, em vez das ferramentas da caixa preta. Falando em ferramentas, eu tenho mathematica, matlab, R, Excel, Google Spreadsheet .... o nome dele.

Graviton
fonte
Que software você usa?
Dimitriy V. Masterov
1
@ DimitriyV.Masterov, eu tenho Matlab / R / Excel / Mathematica ... o nome dele. Na verdade, eu estou mais interessado nos conceitos ao invés de escrever o código real em si
Graviton

Respostas:

14

Sim, existem maneiras de fazer isso. As pessoas ganham a vida fazendo coisas assim ;-)

Você está procurando previsão causal . Veja este livro on-line gratuito sobre previsão para aprender sobre a metodologia de previsão.

Você tem duas questões-chave em suas mãos com as quais precisa lidar: sazonalidade (ou mais geralmente, estrutura de séries temporais, possivelmente com autorregressão), por um lado, e efeitos causais, como promoções, por outro. O capítulo 8 do livro acima trata do material das séries temporais no contexto do ARIMA, enquanto o capítulo 5 trata de efeitos causais.

Felizmente, é possível resolver os dois problemas calculando os chamados modelos ARIMAX (o X significa "efeitos externos", isto é, ARIMA com efeitos externos) ou regressões com erros ARIMA. Veja a postagem do blog de Rob Hyndman no "The ARIMAX model muddle" para saber a diferença. A auto.arima()função no forecastpacote R ajustará uma regressão com erros ARIMA. Vamos dar um exemplo, em que pego um conjunto de dados padrão com forte tendência e sazonalidade e adiciono "promoções".

library(forecast)
AirPassengers # a built-in dataset
#      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1949 112 118 132 129 121 135 148 148 136 119 104 118
# 1950 115 126 141 135 125 149 170 170 158 133 114 140
# 1951 145 150 178 163 172 178 199 199 184 162 146 166
# 1952 171 180 193 181 183 218 230 242 209 191 172 194
# 1953 196 196 236 235 229 243 264 272 237 211 180 201
# 1954 204 188 235 227 234 264 302 293 259 229 203 229
# 1955 242 233 267 269 270 315 364 347 312 274 237 278
# 1956 284 277 317 313 318 374 413 405 355 306 271 306
# 1957 315 301 356 348 355 422 465 467 404 347 305 336
# 1958 340 318 362 348 363 435 491 505 404 359 310 337
# 1959 360 342 406 396 420 472 548 559 463 407 362 405
# 1960 417 391 419 461 472 535 622 606 508 461 390 432

set.seed(1) # for reproducibility
promos <- rep(0,length(AirPassengers))
promos[sample(seq_along(AirPassengers),10)] <- 1
promos.future <- c(0,1,0,0,1,0,0,1,0,0,1,0)
AP.with.promos <- AirPassengers
AP.with.promos[promos==1] <- AP.with.promos[promos==1]+120

model <- auto.arima(AP.with.promos,xreg=promos)
summary(model) # examine the model - you'll see the estimated promo coefficient
# Series: AP.with.promos 
# ARIMA(0,1,1)(0,1,0)[12]                    

# Coefficients:
#           ma1    promos
#       -0.3099  122.2599
# s.e.   0.0947    2.2999

# sigma^2 estimated as 151.2:  log likelihood=-457.4
# AIC=920.79   AICc=920.98   BIC=929.42

# Training set error measures:
#                     ME     RMSE     MAE        MPE     MAPE      MASE         ACF1
# Training set 0.2682805 11.12974 8.24397 0.06139784 2.867274 0.1860814 0.0008326436

fcast <- forecast(model,xreg=promos.future,h=length(promos.future))
fcast
#          Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
# Jan 1961       447.1516 431.3951 462.9081 423.0542 471.2490
# Feb 1961       543.4115 524.2670 562.5559 514.1326 572.6904
# Mar 1961       449.1516 427.1345 471.1687 415.4793 482.8239
# Apr 1961       491.1516 466.5956 515.7076 453.5964 528.7068
# May 1961       624.4115 597.5556 651.2674 583.3389 665.4841
# Jun 1961       565.1516 536.1777 594.1255 520.8399 609.4633
# Jul 1961       652.1516 621.2044 683.0988 604.8220 699.4812
# Aug 1961       758.4115 725.6095 791.2135 708.2452 808.5778
# Sep 1961       538.1516 503.5942 572.7090 485.3006 591.0026
# Oct 1961       491.1516 454.9237 527.3795 435.7459 546.5573
# Nov 1961       542.4115 504.5869 580.2361 484.5637 600.2593
# Dec 1961       462.1516 422.7950 501.5082 401.9608 522.3424
promos.ts <- ts(c(AP.with.promos,fcast$mean),
                  start=start(AirPassengers),frequency=frequency(AirPassengers))
promos.ts[c(promos,promos.future)==0] <- NA

plot(fcast)
points(promos.ts,pch=19,col="red")

ARIMAX

Os pontos vermelhos são as promoções. Por padrão, você obterá intervalos de previsão plotados em cinza. Você pode alimentar vários regressores no seu modelo através do xregparâmetro, o que você deve fazer se tiver diferentes tipos de promoções com efeitos diferentes. Experimente um pouco.

Eu recomendaria olhar para mais dados refinados do que mensalmente, se você os tiver, por exemplo, semanalmente. Especialmente se as suas promoções não durarem meses inteiros. Você pode fazer isso separadamente por produto, novamente se promover produtos específicos ou em categorias inteiras.

Uma alternativa seria, considerando que você está mais interessado em conceitos do que em código, examinar a suavização exponencial e alterá-la para atender às suas necessidades, adicionando componentes promocionais aos componentes padrão de três níveis, estação e tendência. Você pode fazer muito mais com suavização exponencial do que com a tentativa de estimar a probabilidade máxima de um modelo ARIMAX, mas a suavização pode se transformar em um pesadelo para a contabilidade, se você tiver vários tipos de promoção.

Stephan Kolassa
fonte
1
Modelos ARIMA com co-variáveis são discutidos na Seção 9 do livro: www.otexts.org/fpp/9/1
Rob Hyndman
Obrigado, Rob. Eu realmente preciso passar pelo livro mais vezes ...
Stephan Kolassa
Obrigado @StephanKolassa! uma pergunta secundária, posso obter o livro que você mencionou no post acima, no formato mobi ou epub?
Gravitão
1
@ Graviton: boa pergunta. Melhor perguntar ao (s) autor (es). Um deles é Rob Hyndman, que comentou acima.
Stephan Kolassa
1
@Graviton. Trabalhando nisso. Veja como robjhyndman.com/hyndsight/fpp-amazon
Rob Hyndman
4

primeiro, você não tem muitos dados para brincar, apenas 24 observações. No seu caso, significa que você mal tem alguns parâmetros para estimar com segurança. a maneira mais sistemática de prever é criar um processo de geração de dados (DGP). você assume o que é o verdadeiro processo de suas vendas e tenta estimar seus parâmetros.

considere um modelo puro de série temporal com AR (1) DGP: , ou seja, suas vendas neste mês são uma média ponderada das vendas no mês passado mais uma constante. você já possui 3 parâmetros (dois coeficientes e uma variação de erro), o que significa cerca de 8 observações por parâmetro - claramente não muito.xt=ϕxt1+c

como suas vendas são sazonais, precisamos fazer algo a respeito. Uma maneira é adicionar sazonalidade multiplicativa : na notação do operador lag ou na forma expandida: . isso adiciona mais um parâmetro para estimar, então você reduz para 6 observações por parâmetro - um alongamento real.x T = c + φ 1 x t - 1 + φ 12 x t - 12 - φ 1 φ 12 x r - 13(1L)(1L12)xt=cxt=c+ϕ1xt1+ϕ12xt12ϕ1ϕ12xr13

no Matlab, este modelo é especificado como arima('ARLags',1,'SARLags',12)

isso pressupõe que suas vendas são estáveis, ou seja, geralmente não estão crescendo.

se você acha que suas vendas estão crescendo, você tem duas opções: passeio aleatório (RW) e uma tendência temporal.

no Matlab RW é especificado com arima('D',1,'SARLags',12)

obviamente, estes são apenas exemplos de diferentes DGPs. o que você fizer, lembre-se do número de parâmetros a serem estimados. com 24 observações, seu modelo deve ser muito simples, com no máximo 4 parâmetros (incluindo variações).

Aksakal
fonte
0

Aqui está o que você deve fazer Faça dois gráficos:

  • Vendas x tempo dos 24 meses inteiros
  • Vendas versus tempo com o segundo ano plotado no topo do primeiro ano

Olhe para eles. Anote as datas de quaisquer promoções especiais ou atividade competitiva conhecida. "Dezembro" é geralmente bastante óbvio, mas adicione uma nota se isso ajudar.

Vá em frente e ajuste um modelo de série temporal - qualquer modelo (existem centenas). O modelo pode fornecer uma previsão um pouco melhor para o próximo período (t + 1) do que seu julgamento. Pelo menos, desafiará seu julgamento. Além do próximo período (t + n, n> 1), qualquer modelo de série temporal é uma porcaria. † Portanto, esqueça de avaliar quantitativamente a eficácia das campanhas de vendas ou os efeitos dos concorrentes. Se você comparar as vendas reais às previsões, verá que as previsões são ruins. Prever o futuro é difícil, e nenhum método altera esse fato básico.

Você encontrará seus dois gráficos mais úteis. Estude-os por um tempo e, em seguida, gaste o resto do seu tempo com idéias sobre como aumentar as vendas - esse será um uso muito mais lucrativo do seu tempo do que tentar se ajustar a um modelo de série temporal.

† Você tem mais esperança se conseguir criar um modelo preditivo com base nos principais indicadores - ou seja, as vendas de imóveis para o mês anterior podem ser úteis para prever as vendas de persianas no mês atual.

escurecer
fonte