Venho acompanhando as competições do Kaggle há muito tempo e percebo que muitas estratégias de vitória envolvem o uso de pelo menos uma das "três grandes" qualidades: empacotar, aumentar e empilhar.
Para as regressões, em vez de se concentrar na construção de um melhor modelo de regressão possível, a criação de vários modelos de regressão, como regressão linear (generalizada), floresta aleatória, modelos de regressão KNN, NN e SVM e mesclar os resultados em um de maneira razoável parece -executar cada método individual várias vezes.
Obviamente, uma sólida compreensão de cada método é a chave e uma história intuitiva pode ser contada com base em um modelo de regressão linear, mas estou me perguntando se isso se tornou a metodologia do estado da arte para obter os melhores resultados possíveis.
Respostas:
É sabido, pelo menos desde o final dos anos 60, que se você tomar várias previsões † e calculá- las a média , então a previsão agregada resultante em muitos casos superará as previsões individuais. Ensacamento, reforço e empilhamento são todos baseados exatamente nessa idéia. Então, sim, se seu objetivo é puramente previsão, na maioria dos casos, é o melhor que você pode fazer. O que é problemático nesse método é que é uma abordagem de caixa preta que retorna o resultado, mas não ajuda a entendê-lo e interpretá-lo. Obviamente, também é mais intensivo em termos de computação do que qualquer outro método, pois você precisa calcular poucas previsões em vez de uma única.
† Isso se refere a qualquer previsão em geral, mas é frequentemente descrito na literatura de previsão.
Winkler, RL. e Makridakis, S. (1983). A combinação de previsões. JR Statis. Soc. A. 146 (2), 150-157.
Makridakis, S. e Winkler, RL (1983). Médias das previsões: alguns resultados empíricos. Management Science, 29 (9) 987-996.
Clemen, RT (1989). Combinando previsões: uma revisão e bibliografia anotada. International Journal of Forecasting, 5, 559-583.
Bates, JM e Granger, CW (1969). A combinação de previsões. Ou 451-468.
Makridakis, S. e Hibon, M. (2000). A competição M3: resultados, conclusões e implicações. Revista internacional de previsão, 16 (4), 451-476.
Reid, DJ (1968). Combinando três estimativas do produto interno bruto. Economica, 431-444.
Makridakis, S., Spiliotis, E., e Assimakopoulos, V. (2018). A competição M4: resultados, descobertas, conclusão e caminho a seguir. Revista Internacional de Previsão.
fonte
Arthur (1994) tem um belo experimento curto de papel / pensamento que é bem conhecido na literatura de complexidade.
Uma das conclusões é que os agentes não podem selecionar melhores modelos preditivos (mesmo que possuam uma "floresta" deles) em condições de não equilíbrio. Por exemplo, se a pergunta for aplicada ao desempenho do mercado de ações, o cenário de Arthur (1994) pode ser aplicável.
fonte