Então, o que eu li sobre o profeta do Facebook é que basicamente divide a série temporal em tendência e sazonalidade. Por exemplo, um modelo aditivo seria escrito como:
com
- o tempo
- a tendência (pode ser linear ou logística)
- a sazonalidade (diária, semanal, anual ...)
- os feriados
- o erro
Minhas perguntas são: isso não poderia ser feito com uma regressão linear simples? Quais seriam as diferenças em termos de resultados se as comparássemos e por quê?
Respostas:
A questão aqui é chegar a uma equação que analisa os dados observados em sinal e ruído. Se seus dados forem simples, sua abordagem de regressão poderá funcionar. Deve-se tomar cuidado para entender algumas das suposições que eles estão fazendo com o Profeta. Você deve entender melhor o que o Profeta faz, pois ele não se encaixa apenas em um modelo simples, mas tenta adicionar alguma estrutura.
Por exemplo, algumas reflexões que fiz depois de ler sua introdução bem escrita podem ajudá-lo em sua avaliação. Peço desculpas antecipadamente se não entendi a abordagem deles e gostaria de ser corrigido.
1) O exemplo principal deles tem dois pontos de ruptura na tendência, mas eles capturaram apenas o mais óbvio.
2) Eles ignoram toda e qualquer estrutura ARIMA que reflete séries estocásticas omitidas ou o valor de usar valores históricos de Y para orientar a previsão.
3) Eles ignoram qualquer dinâmica possível (efeitos de lead e lag) de séries estocásticas e determinísticas sugeridas pelo usuário. Os efeitos de regressão causal do Profeta são simplesmente contemporâneos.
4) Não é feita nenhuma tentativa para identificar mudanças de nível / passo nas séries ou pulsos sazonais, por exemplo, uma alteração no EFEITO DE SEGUNDA-SE na metade do tempo devido a algum evento externo desconhecido. O Profeta assume "crescimento linear simples" em vez de validá-lo examinando possibilidades alternativas. Para um possível exemplo disso, consulte Previsão de pedidos recorrentes para um negócio de assinaturas on-line usando o Facebook Prophet e R
5) Sines e Cosines são uma maneira opaca de lidar com a sazonalidade, enquanto efeitos sazonais como dia da semana, dia do mês, semana do mês, mês do ano são muito mais eficaz / informativo ao lidar com efeitos antropogênicos (lidar com seres humanos!).
Sugerir frequências de 365,25 para padrões anuais faz pouco sentido, porque não realizamos a mesma ação no mesmo dia que fizemos no ano passado, enquanto a atividade mensal é muito mais persistente, mas o Profeta parece não oferecer os 11 indicadores mensais opção. As frequências semanais de 52 fazem pouco sentido, porque não temos 52 semanas em cada ano.
6) Nenhuma tentativa é feita para validar os processos de erro sendo gaussianos, de modo que testes significativos de significância podem ser feitos.
7) Não há preocupação em que a variação do erro do modelo seja homogênea, ou seja, não seja alterada deterministicamente em momentos específicos, sugerindo os Mínimos Quadrados Ponderados. Não há preocupação em encontrar uma transformação de potência ideal para lidar com a variação de erro proporcional ao valor esperado Quando (e por que) você deve registrar o log de uma distribuição (de números)? .
8) O usuário deve pré-especificar todos os possíveis efeitos de lead e lag em torno de eventos / feriados. Por exemplo, as vendas diárias geralmente começam a aumentar no final de novembro, refletindo um efeito de longo prazo do Natal.
9) Não há preocupação de que os erros resultantes estejam livres de estrutura, sugerindo maneiras de melhorar o modelo via verificação de diagnóstico quanto à suficiência.
10) Aparentemente, nenhuma preocupação em melhorar o modelo excluindo estruturas não significativas.
11) Não há possibilidade de obter uma família de previsões simuladas em que os limites de confiança podem não ser necessariamente simétricos através da inicialização dos erros do modelo, com a possibilidade de possíveis anomalias.
12) Permitir que o usuário faça suposições sobre tendências (número de pontos de interrupção de tendências e pontos de interrupção reais) permite uma flexibilidade indesejável / inutilizável em face de análises em larga escala, que por seu nome são projetadas para aplicativos em grande escala sem o uso das mãos.
fonte
Eu não o usei, mas este é o resumo da pré-impressão (ênfase minha):
Na introdução:
Portanto, parece-me que eles não estão afirmando ter feito um avanço estatístico substancial aqui (embora seja capaz de muito mais do que o modelo simples que você descreve). Em vez disso, eles afirmam que seu sistema viabiliza que um grande número de pessoas sem experiência em análise de séries temporais gere previsões, aplicando sua própria experiência em domínio e restrições específicas do sistema.
Se você já possui experiência na análise de séries temporais e na codificação de modelos complexos, isso pode não ser muito útil para você. Mas se suas afirmações forem verdadeiras, isso pode ser extremamente útil! A ciência (e o comércio) avança não apenas por causa de novas idéias, mas também por causa de novas ferramentas e sua disseminação (veja este pequeno artigo de Freeman Dyson sobre o tópico e esta resposta ).
Para dar um exemplo da própria estatística:
R
não representou um avanço estatístico, mas tem sido altamente influente porque tornou mais fácil para muitas pessoas a análise estatística. Foi o andaime sobre o qual uma grande quantidade de entendimento estatístico foi construída. Se tivermos sorte, o Profeta pode desempenhar um papel semelhante.Dyson, Freeman J. "A ciência é dirigida principalmente por idéias ou por ferramentas?" Science 338, n. 6113 (2012): 1426-1427.
fonte
Estão faltando os pontos de mudança, splines lineares por partes, que podem ser implementados em modelos lineares.
Você está certo que, pelo menos no caso limitante, é uma regressão regularizada linear (regularização de L1 e L2).
Observe que existe um modelo de profeta separado, o crescimento logístico.
Você também está assumindo que os fatores sazonais são aditivos, mas também suportam efeitos sazonais multiplicativos, o que parece mais natural, pelo menos para a modelagem de crescimento.
fonte
Muito pode ser feito com uma regressão linear simples, mas não tudo o que o Profeta faz. Apenas um exemplo, você pode especificar seu próprio candidato a um ponto de mudança para uma tendência, e o Profeta o usará como anterior.
fonte