Essa é a metodologia de regressão de última geração?

33

Venho acompanhando as competições do Kaggle há muito tempo e percebo que muitas estratégias de vitória envolvem o uso de pelo menos uma das "três grandes" qualidades: empacotar, aumentar e empilhar.

Para as regressões, em vez de se concentrar na construção de um melhor modelo de regressão possível, a criação de vários modelos de regressão, como regressão linear (generalizada), floresta aleatória, modelos de regressão KNN, NN e SVM e mesclar os resultados em um de maneira razoável parece -executar cada método individual várias vezes.

Obviamente, uma sólida compreensão de cada método é a chave e uma história intuitiva pode ser contada com base em um modelo de regressão linear, mas estou me perguntando se isso se tornou a metodologia do estado da arte para obter os melhores resultados possíveis.

Maxareo
fonte
Em alguns casos, a Rede Neural define bem a maneira "clássica" de fazer regressão. Por exemplo, em quanto choveu II . Mas é definitivamente uma caixa preta.
YCR 18/01/16
@YCR Concordo que é uma caixa preta. Enquanto trabalhava, construí um modelo incrível de aprendizado de máquina e tentei explicar para pessoas de negócios ou alguém que não conhece o modelo, a conversa geralmente termina assim: criei um modelo incrível de Machine Learning, funciona como mágica, mas Não posso contar uma história interessante.
Maxareo 19/01/16

Respostas:

41

É sabido, pelo menos desde o final dos anos 60, que se você tomar várias previsões e calculá- las a média , então a previsão agregada resultante em muitos casos superará as previsões individuais. Ensacamento, reforço e empilhamento são todos baseados exatamente nessa idéia. Então, sim, se seu objetivo é puramente previsão, na maioria dos casos, é o melhor que você pode fazer. O que é problemático nesse método é que é uma abordagem de caixa preta que retorna o resultado, mas não ajuda a entendê-lo e interpretá-lo. Obviamente, também é mais intensivo em termos de computação do que qualquer outro método, pois você precisa calcular poucas previsões em vez de uma única.

† Isso se refere a qualquer previsão em geral, mas é frequentemente descrito na literatura de previsão.


Winkler, RL. e Makridakis, S. (1983). A combinação de previsões. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. e Winkler, RL (1983). Médias das previsões: alguns resultados empíricos. Management Science, 29 (9) 987-996.

Clemen, RT (1989). Combinando previsões: uma revisão e bibliografia anotada. International Journal of Forecasting, 5, 559-583.

Bates, JM e Granger, CW (1969). A combinação de previsões. Ou 451-468.

Makridakis, S. e Hibon, M. (2000). A competição M3: resultados, conclusões e implicações. Revista internacional de previsão, 16 (4), 451-476.

Reid, DJ (1968). Combinando três estimativas do produto interno bruto. Economica, 431-444.

Makridakis, S., Spiliotis, E., e Assimakopoulos, V. (2018). A competição M4: resultados, descobertas, conclusão e caminho a seguir. Revista Internacional de Previsão.

Tim
fonte
1
O link na nota de rodapé não parece funcionar para mim?
Silverfish
@ Silverfish obrigado, corrigido. O link era de menor importância, mas ainda assim, se não funcionar, é inútil.
Tim
0

Arthur (1994) tem um belo experimento curto de papel / pensamento que é bem conhecido na literatura de complexidade.

Uma das conclusões é que os agentes não podem selecionar melhores modelos preditivos (mesmo que possuam uma "floresta" deles) em condições de não equilíbrio. Por exemplo, se a pergunta for aplicada ao desempenho do mercado de ações, o cenário de Arthur (1994) pode ser aplicável.

Glenn Magerman
fonte