Não confunda o manuseio dos preditores (através dos alunos da base, por exemplo, tocos) e o manuseio da função de perda no aumento. Embora o AdaBoost possa ser considerado como encontrar combinações de alunos de base para minimizar erros de classificação incorreta, o artigo "Regressão logística aditiva" que você menciona mostra que ele também pode ser formulado para minimizar uma função de perda exponencial. Esse insight abriu a abordagem de impulso para uma ampla classe de problemas de aprendizado de máquina que minimizam as funções de perda diferenciáveis, via aumento de gradiente . Os resíduos que são ajustados em cada etapa são pseudo-resíduos calculados a partir do gradiente da função de perda. Mesmo que os preditores sejam modelados como tocos binários, a saída do modelo não precisa, portanto, ser uma opção binária.
Como outra resposta afirma, os alunos de base linear podem não funcionar para aumentar, mas os alunos de base linear não são necessários para a "regressão aprimorada" no sentido padrão ou logístico. Os tocos decididamente não lineares podem ser combinados como alunos de base lenta para minimizar as funções de perda apropriadas. Ainda é chamado de "regressão reforçada", embora esteja longe de ser um modelo de regressão padrão linear nos coeficientes dos preditores. A função de perda pode ser funcionalmente a mesma para modelos lineares e modelos de "regressão reforçada" com tocos ou árvores como preditores. O capítulo 8 da ISLR deixa isso bem claro.
Portanto, se você deseja uma regressão logística equivalente à regressão impulsionada, concentre-se na função de perda em vez de nos alunos de base. É isso que a abordagem do LogitBoost no artigo que você cita: minimiza uma perda de log em vez da perda exponencial implícita no adaboost. A página Wikipedia AdaBoost descreve essa diferença.
Muitos participantes neste site argumentariam que uma previsão baseada em probabilidades de log / probabilidade é altamente preferível a uma previsão estrita de classificação sim / não, pois a primeira geralmente permite trocas diferentes entre os custos extras de previsões falso-positivas e falso-negativas. . Como a resposta à sua pergunta relacionada indica, é possível obter probabilidades estimadas do classificador forte derivado do AdaBoost, mas o LogitBoost pode muito bem fornecer um melhor desempenho.
Implementações de aumento de gradiente para classificação podem fornecer informações sobre as probabilidades subjacentes. Por exemplo, esta página sobre aumento de gradiente mostra como o sklearn
código permite uma escolha entre perda de desvio para regressão logística e perda exponencial para o AdaBoost e documenta funções para prever probabilidades do modelo de aumento de gradiente.
De fato, temos uma pergunta muito semelhante aqui no caso de regressão. E tivemos uma resposta muito boa de @Matthew Drury
Reforço de gradiente para regressão linear - por que não funciona?
O modelo linear (como a regressão logística) não é bom para impulsionar. O motivo é que, se você adicionar dois modelos lineares, o resultado será outro modelo linear. Por outro lado, a adição de dois tocos de decisão ou árvores terá um modelo mais complicado e interessante (não mais uma árvore).
Detalhes podem ser encontrados neste post. Neste link, deduzi por que adicionar dois modelos lineares não é interessante. E estou mostrando o efeito de aumentar a iteração do stump de decisão por iteração.
Como o aprendiz de base linear trabalha para aumentar? E como isso funciona na biblioteca xgboost?
Observe que a árvore de decisão / coto não é um "modelo linear" semelhante à regressão logística.
Veja este post para mais detalhes
Um coto de decisão é um modelo linear?
fonte