Quais são as garantias teóricas do ensacamento

17

Eu (aproximadamente) ouvi dizer que:

ensacamento é uma técnica para reduzir a variação de um algoritmo de preditor / estimador / aprendizado.

No entanto, nunca vi uma prova matemática formal dessa afirmação. Alguém sabe por que isso é matematicamente verdadeiro? Parece ser um fato amplamente aceito / conhecido, que eu esperaria uma referência direta a isso. Eu ficaria surpreso se não houver. Além disso, alguém sabe que efeito isso tem sobre o viés?

Existem outras garantias teóricas de abordagens que alguém sabe e pensa que é importante e deseja compartilhá-lo?

Charlie Parker
fonte

Respostas:

21

O principal caso de uso para ensacamento é reduzir a variação dos modelos de baixa polarização agrupando-os. Isso foi estudado empiricamente no artigo de referência " Uma comparação empírica dos algoritmos de classificação da votação: ensacamento, reforço e variantes " de Bauer e Kohavi . Geralmente funciona como anunciado.

No entanto, contrariamente à crença popular, o ensacamento não é garantido para reduzir a variação . Uma explicação mais recente e (na minha opinião) melhor é que o ensacamento reduz a influência dos pontos de alavancagem. Pontos de alavancagem são aqueles que afetam desproporcionalmente o modelo resultante, como outliers na regressão de mínimos quadrados. É raro, mas possível, que os pontos de alavancagem influenciem positivamente os modelos resultantes. Nesse caso, o ensacamento reduz o desempenho. Dê uma olhada em " Ensacamento iguala influência " por Grandvalet .

Portanto, para finalmente responder à sua pergunta: o efeito do ensacamento depende em grande parte dos pontos de alavancagem. Existem poucas garantias teóricas, exceto que o empacotamento aumenta linearmente o tempo de computação em termos de tamanho do saco! Dito isto, ainda é uma técnica amplamente usada e muito poderosa. Ao aprender com o ruído da etiqueta, por exemplo, o ensacamento pode produzir classificadores mais robustos .

Rao e Tibshirani deram uma interpretação bayesiana em " O método out-of-bootstrap para média e seleção de modelos " :

Nesse sentido, a distribuição de bootstrap representa uma distribuição posterior (paramétrica) não paramétrica e não informativa para o nosso parâmetro. Mas essa distribuição de bootstrap é obtida sem dor - sem ter que especificar formalmente uma prévia e sem ter que amostrar a partir da distribuição posterior. Portanto, podemos pensar na distribuição de bootstrap como um homem pobre "Bayes posterior.

Marc Claesen
fonte
1
Como a explicação dos 'pontos de alavancagem' se aplica às árvores, que são frequentemente recomendadas para ensacamento? Embora esteja claro quais são os pontos altos de alavancagem para a regressão linear, quais são esses pontos para as árvores?
DavidR
encontrou outra referência a esta pergunta: quora.com/… o que você acha? isso contradiz o fato de você ter dito que não reduz a variação teoricamente?
Charlie Parker
Vi que a wikipedia diz que o agrupamento (também conhecido como agregação de bootstrap) reduz a variação. Se não há evidência teórica para isso, isso significa que o artigo está errado?
Charlie Parker
Na maioria dos casos, o ensacamento diminui a variação, mas esse não é o mecanismo real. Grandvalet mostrou exemplos em que aumenta a variação e ilustrou que o mecanismo está mais relacionado à influência equalizadora de pontos de dados que afetam fortemente o modelo, como outliers na regressão de mínimos quadrados, que na maioria dos casos reduz a variação.
Marc Claesen