Auto.arima vs autobox eles diferem?

Ao ler as postagens neste site, sei que há uma função R auto.arima(no forecast pacote ). Sei também que o IrishStat , membro deste site, criou o autobox do pacote comercial no início dos anos 80. Como esses dois pacotes existem hoje e selecionam automaticamente modelos de arima para determinados conjuntos de dados, o que eles fazem de diferente? Eles possivelmente produzirão modelos diferentes para o mesmo conjunto de dados?

time-series arima automatic-algorithms Michael R. Chernick
fonte

Obrigado pela edição @Wayne. Eu não sou familiar com o pacote de previsão R, mas tenho certeza de que é isso que quero comparar com a caixa automática.

Michael R. Chernick

(Acabei de fazer uma segunda alteração pequena de "auto-arima" para "auto.arima".) Pode haver outras auto.arimafunções disponíveis em outros pacotes, mas definitivamente há uma em forecastcuja descrição é: "Retorna o melhor modelo ARIMA de acordo com ao valor AIC, AICc ou BIC. A função realiza uma pesquisa no modelo possível dentro das restrições de pedidos fornecidas. "

21312 Wayne

A AUTOBOX trata a identificação automática de maneira holística, iterando através da identificação automática, estimando e realizando procedimentos diagnósticos de aumento e redução para renderizar um modelo que possui apenas parâmetros estatisticamente significativos enquanto possui um processo de erro livre de estrutura identificável . Desta forma, segue o script de iteração. As primeiras versões do AUTOBOX, por volta de 1975, tentaram usar a "única abordagem estatística", mas isso foi encontrado em falta, pois os modelos identificados tinham estrutura redundante ou boba (5,1,2 por exemplo) ou evidenciavam estrutura insuficiente.

IrishStat

@IrishStat Isso soa como uma boa abordagem. O que você faz se encontrar dois modelos concorrentes que atendem aos seus requisitos. Parece possível. Você recomenda um modelo "ideal" com base em critérios específicos? Eu percebo que a escolha de um modelo com apenas "parâmetros estatisticamente significativos" pode tender a favorecer a parcimônia. Mas não é possível ter um processo AR de baixo parâmetro e outro modelo AEMA de baixa ordem em que todos os parâmetros sejam estatisticamente significativos e os resíduos pareçam brancos ruído?

22812 Michael R. Chernick

@IriehStat. Eu concordo com você. No final, o que você faz pelo usuário. Você fornece apenas um modelo ou pode fornecer uma lista ordenada de modelos aceitáveis concorrentes? Caso contrário, talvez seja uma boa opção adicionar onde você limita a lista a um número pequeno.

Michael R. Chernick

Respostas:

michael / wayne

A AUTOBOX entregaria / identificaria definitivamente um modelo diferente se uma ou mais das seguintes condições fossem atendidas

1) existem pulsos nos dados

2) há 1 ou mais mudanças de nível / etapa nos dados

3) se houver pulsos sazonais nos dados

4) existem 1 ou mais tendências da hora local nos dados que não são simplesmente remediadas

5) se os parâmetros do modelo mudarem com o tempo

6) se a variação dos erros mudar ao longo do tempo e nenhuma transformação de energia for adequada.

Em termos de um exemplo específico, sugiro que vocês selecionem / criem uma série temporal e publiquem ambos na Web. Usarei a AUTOBOX para analisar os dados em um modo autônomo e publicarei os modelos na lista. Em seguida, você executa o programa R e, em seguida, cada um de vocês faz uma análise objetiva separada dos dois resultados, apontando semelhanças e diferenças. Envie esses dois modelos com todo o material de suporte disponível, incluindo os termos finais de erro para meus comentários. Resuma e apresente esses resultados à lista e peça aos leitores da lista que VOTEM pelo procedimento que lhes parecer melhor.

IrishStat
fonte

Você quer dizer um concurso como este ?

whuber

@whuber Sim. Talvez até usando algum "exemplo de livro de texto desconhecido / codificado" que possa ser usado como pano de fundo.

IrishStat

Eles representam duas abordagens diferentes para dois problemas semelhantes, mas diferentes. Eu escrevi auto.arimae @IrishStat é o autor de Autobox.

auto.arima()se encaixa nos modelos ARIMA (sazonais), incluindo termos de desvio. Autoboxadapta-se aos modelos de função de transferência para lidar com mudanças de nível e valores extremos. Um modelo ARIMA é um caso especial de um modelo de função de transferência.

Mesmo se você desativasse as mudanças de nível e a detecção de outlier Autobox, obteria um modelo ARIMA diferente auto.arima()devido a diferentes opções de como identificar os parâmetros ARIMA.

Nos meus testes com os dados da concorrência M3 e M, auto.arima()produz previsões mais precisas do que Autoboxpara esses dados. No entanto, Autoboxo desempenho será melhor com dados que contenham discrepâncias importantes e mudanças de nível.

Rob Hyndman
fonte

Eu acredito que você estava se referindo a uma versão do AUTOBOX de muitos, muitos anos atrás. A AUTOBOX mudou significativamente nos últimos anos. Se não estou errado, você só comparou as precisões de 1 origem, que tenho certeza de que você concorda que é uma amostra de 1. As precisões precisam ser avaliadas a partir de várias origens.

22412 IrishStat

Refiro-me a comparações publicadas em milhares de séries. Como editor-chefe do International Journal of Forecasting, acho que tenho alguma idéia de como avaliar previsões.

22812 Rob Hyndman

Não pretendia que essa pergunta apresentasse argumentos sobre quem tem o melhor algoritmo de previsão. Eu acho que tanto o autobox quanto o auto.arima provavelmente são pacotes muito bons. Uma comparação direta pode não ser justa por muitos motivos. 1) O usuário pode não ser especialista o suficiente para saber como julgá-lo. 2) A precisão da previsão em uma única série temporal é uma porcaria. Pode-se ter um erro quadrado médio mais baixo na previsão, mas sempre que houver aleatoriedade, ela deve ser levada em consideração. Você precisa examinar várias séries e, como sugere o IrishStat, você deve considerar diferentes pontos de partida.

22812 Michael R. Chernick

Também seriam úteis pontos diferentes para iniciar a previsão. 3) No mundo ARIMA, existem múltiplas representações para o mesmo modelo de série temporal, processos finitos de AR têm infinitas representações de média móvel e vice-versa. Portanto, um AR de ordem baixa pode ser quase o mesmo que uma média móvel de ordem alta ou um ARMA. Caixa sempre sugerida seguindo o princípio da parcimônia. Mas se você tiver muitos dados, poderá obter boas estimativas dos parâmetros e o modelo de alta ordem poderá gerar quase as mesmas previsões que a parcimoniosa. 4) Os dois pacotes têm objetivos diferentes.

22812 Michael R. Chernick

O método evoluiu com o tempo. Dave Reilly é muito ativo neste site como IrishStat e tem sido muito aberto a explicar como funciona em termos gerais. É um aspecto essencial dos negócios ter segredos comerciais e algoritmos proprietários. Do ponto de vista dele, R está prejudicando seus negócios, assim como o SPlus. Mas ele não mostra amargura e está muito disposto a demonstrar seu software, como você pode ver hoje. Ele também está disposto a executar testes contra concorrentes e acredito que ele tenha participado de competições de previsão de séries temporais.

22712 Michael C. Chernick

EDIT: Por seu comentário, acredito que se você desativar muitas das autoboxopções, provavelmente obterá uma resposta semelhante auto.arima. Mas se não, e na presença de discrepantes, haverá definitivamente uma diferença: auto.arimanão se importa com discrepantes, enquanto autoboxos detecta e os manipula adequadamente, o que daria um modelo melhor. Também pode haver outras diferenças, e tenho certeza que o IrishStat pode descrevê-las.

Acredito que autoboxdetecta outliers e outras coisas além de apenas procurar os melhores coeficientes de AR, I e MA. Se isso estiver correto, seria necessário mais análises e algumas outras funções R para ter uma funcionalidade semelhante. O IrishStats é um membro valioso dessa comunidade e bastante amigável.

Obviamente, o R é gratuito e pode fazer um monte de coisas além do ARIMA.

Outra opção livre para o ARIMA X13-ARIMA SEATS, no estilo econômico , é o US Census Bureau, que é de código aberto. Existem binários para Windows e Linux, mas ele foi compilado diretamente no meu Mac, já que eu já havia carregado o compilador gfortran do gnu. É o sucessor X12-ARIMAe foi lançado nos últimos dias, depois de anos de desenvolvimento e teste. (Ele atualiza o X12 e também adiciona recursos do SEATS / TRAMO. O X12 é a ferramenta oficial dos EUA, enquanto o SEATS / TRAMO é do Banco da Espanha e é a "ferramenta européia".)

Eu realmente gosto muito do X12 (e agora do X13). Se você produz uma quantidade razoável de diagnósticos, lê-los e aprende o que eles significam, eles são realmente uma educação bastante boa sobre o ARIMA e as séries temporais. Desenvolvi meu próprio fluxo de trabalho, mas há um pacote R x12para fazer a maior parte do trabalho no R (você ainda precisa criar o arquivo do modelo de entrada (".spc") para o X12).

Eu digo que o X12 é bom no ARIMA "estilo econômico", para significar dados mensais com mais de 3 anos de dados. (Você precisa de mais de 5 anos de dados para usar alguns recursos de diagnóstico.) Possui um recurso de identificação discrepante, pode lidar com todos os tipos de especificações discrepantes e pode lidar com feriados, feriados flutuantes, efeitos de dias de negociação e uma série de aspectos econômicos. É a ferramenta que o governo dos EUA usa para criar dados com ajuste sazonal.

Wayne
fonte

Minha pergunta foi realmente dado um conjunto de dados, os dois algoritmos possivelmente produzirão diferentes seleções de modelo. Na verdade, é na seção em que estou interessado e não em outros recursos de diagnóstico que um pode ter e que o outro não. Sabe-se que a família de modelos ARMA e dois modelos da família podem ser representações alternativas exatas ou quase exatas do mesmo modelo. Portanto, se houver pequenas diferenças nos processos de seleção, acho que eles poderiam dar diferentes opções de modelo.

22912 Michael Jackson Chernick

@MichaelChernick: Ah. Meu palpite seria que, se você desativar todas as informações automáticas, autoboxobterá a mesma resposta. Mas um dos pontos de uso autoboxé que ele detectará discrepâncias e as manipulará como tal; portanto, o modelo retornado seria diferente se houver discrepâncias.

21712 Wayne

@Wayne +1 para obter informações adicionais sobre os assentos X13-ARIMA e SEATS / TRAMO.

Graeme Walsh

@Wayne A propósito, outra "ferramenta europeia" é o DEMETRA + .

Graeme Walsh