Aprendizagem em conjunto: por que o empilhamento de modelos é eficaz?

10

Recentemente, me interessei pelo empilhamento de modelos como uma forma de aprendizado por conjunto. Em particular, experimentei um pouco com alguns conjuntos de dados de brinquedos para problemas de regressão. Eu basicamente implementei regressores individuais de "nível 0", armazenei as previsões de saída de cada regressor como um novo recurso que um "meta-regressor" deve ter como entrada e encaixe esse meta-regressor nesses novos recursos (as previsões do nível 0 regressores). Fiquei extremamente surpreso ao ver melhorias modestas nos regressores individuais ao testar o meta-regressor em relação a um conjunto de validação.

Então, eis a minha pergunta: por que o empilhamento de modelos é eficaz? Intuitivamente, eu esperaria que o modelo que está fazendo o empilhamento tenha um desempenho ruim, pois parece ter uma representação de recursos empobrecida em comparação com cada um dos modelos de nível 0. Ou seja, se eu treinar 3 regressores de nível 0 em um conjunto de dados com 20 recursos e usar as previsões desses regressores de nível 0 como entrada para meu meta-regressor, isso significa que meu meta-regressor tem apenas 3 recursos para aprender. Parece que há mais informações codificadas nos 20 recursos originais que os regressores de nível 0 têm para treinamento do que nos 3 recursos de saída que o meta-regressor usa para treinamento.

kylerthecreator
fonte

Respostas:

5

Pense no conjunto como basicamente uma exploração do teorema do limite central.

O teorema do limite central diz vagamente que, à medida que o tamanho da amostra aumenta, a média da amostra se tornará uma estimativa cada vez mais precisa da localização real da média da população (supondo que essa seja a estatística que você está vendo), e a variação aumentará .

Se você tem um modelo e produz uma previsão para sua variável dependente, essa previsão provavelmente será alta ou baixa em algum grau. Mas se você tiver 3, 5 ou 10 modelos diferentes que produzam previsões diferentes, para qualquer observação, as altas previsões de alguns modelos tenderão a compensar os erros baixos de alguns outros modelos, e o efeito líquido será uma convergência da média (ou outra combinação) das previsões para "a verdade". Não em todas as observações, mas em geral essa é a tendência. E assim, geralmente, um conjunto supera o melhor modelo único.

Doug Dame
fonte