Parece ter se tornado axiomático que um conjunto de alunos leve aos melhores resultados possíveis de modelos - e está se tornando muito mais raro, por exemplo, modelos únicos ganharem competições como o Kaggle. Existe uma explicação teórica para o porquê dos conjuntos serem tão efetivamente eficazes?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
fonte
fonte
Respostas:
Para um modelo específico, os dados são alimentados, escolha os recursos, escolha hiperparâmetros, etc. Comparado à realidade, ele comete três tipos de erros:
Os conjuntos calculam a média de vários desses modelos. O viés devido ao viés de amostragem não será corrigido por razões óbvias; ele pode corrigir alguns dos desvios de complexidade do modelo; no entanto, os erros de variação cometidos são muito diferentes nos diferentes modelos. Modelos correlacionados especialmente baixos cometem erros muito diferentes nessas áreas; alguns modelos apresentam bom desempenho em determinadas partes do espaço de recursos. Ao calcular a média desses modelos, você reduz bastante essa variação. É por isso que os conjuntos brilham.
fonte
A resposta selecionada é fantástica, mas gostaria de acrescentar duas coisas:
fonte
Os conjuntos vencem na previsão por razões teóricas e práticas.
Existe uma teoria fundamental da previsão ideal, se queremos dizer a previsão do próximo evento em uma sequência com base no conhecimento de eventos anteriores. A previsão de Solomonoff (Solomonoff 1964) é comprovadamente ótima em vários sentidos, incluindo que “aprenderá a prever corretamente qualquer sequência computável apenas com a quantidade mínima absoluta de dados”. (Hutter, Legg & Vitanyi 2007) Um preditor de Solomonoff pesa todos os programas compatíveis com os dados existentes, de acordo com a complexidade do programa de Kolmogorov e a probabilidade que o programa atribui aos dados até agora, combinando as filosofias epicuristas ("mantenha todas as teorias") e Ockham ("prefira as teorias simples") em uma estrutura bayesiana.
As propriedades de otimização da previsão de Solomonoff explicam a descoberta robusta a que você se refere: a média de modelos, fontes ou especialistas melhora as previsões e as previsões médias superam até o melhor preditor único. Os vários métodos de conjunto vistos na prática podem ser vistos como aproximações computáveis da previsão de Solomonoff - e alguns como o MML (Wallace 2005) exploram explicitamente os vínculos, embora a maioria não o faça.
Wallace (2005) observa que um preditor de Solomonoff não é parcimonioso - ele mantém um conjunto infinito de modelos - mas a maior parte do poder preditivo inevitavelmente cai para um conjunto relativamente pequeno de modelos. Em alguns domínios, o melhor modelo (ou família de modelos quase indistinguíveis) pode ser responsável por grande parte do poder preditivo e superar conjuntos genéricos, mas em domínios complexos com pouca teoria, provavelmente nenhuma família captura a maioria da probabilidade posterior, e, portanto, a média dos candidatos plausíveis deve melhorar as previsões. Para ganhar o prêmio Netflix, a equipe Bellkor misturou mais de 450 modelos (Koren 2009).
Os seres humanos geralmente buscam uma boa explicação: em domínios da "alta teoria", como a física, eles funcionam bem. De fato, se eles capturam a dinâmica causal subjacente, devem ser quase imbatíveis. Mas onde as teorias disponíveis não se encaixam de perto nos fenômenos (por exemplo, recomendação de filme ou geopolítica), os modelos únicos terão um desempenho inferior: todos são incompletos, portanto, nenhum deve dominar. Assim, a ênfase recente em conjuntos (para aprendizado de máquina) e Wisdom of the Crowds (para especialistas) e o sucesso de programas como o IARPA ACE e, especificamente, o Good Judgement Project (Tetlock & Gardiner 2015).
Referências
fonte