Como você diz, essa ideia já foi explorada antes (embora com nomes diferentes) e, na verdade, existe uma ampla literatura sobre esse tópico. Os nomes que associo a essa linha de trabalho são Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, João Gama, Antonio Ciampi ou Achim Zeileis. Você pode encontrar uma descrição bastante abrangente de prós e contras e algoritmos diferentes (um pouco desatualizados) nesta tese .
Às vezes, a forma funcional de um GLM pode parecer rígida demais para todo o conjunto de dados, mesmo que o modelo possa se encaixar bem em uma subamostra.
Especialmente com grandes conjuntos de dados ou conjuntos de dados em que o conhecimento sobre os processos subjacentes é limitado, a configuração de modelos paramétricos úteis pode ser difícil e seu desempenho em relação à previsão pode não ser suficiente.
As árvores são capazes de incorporar relações não lineares ou encontrar a relação funcional por si mesmas e, portanto, podem ter maior poder preditivo em ambientes onde os modelos clássicos são tendenciosos ou até falham.
Devido ao seu caráter exploratório, as árvores com GLM podem revelar padrões ocultos nos dados modelados com GLM ou fornecer mais explicações sobre resultados surpreendentes ou contra-intuitivos, incorporando informações adicionais de outras covariáveis.
Eles podem ser úteis na identificação de segmentos dos dados para os quais um modelo assumido a priori se encaixa bem. Pode ser que, em geral, este modelo tenha um ajuste inadequado, mas isso ocorra devido a alguma contaminação (por exemplo, mesclando dois arquivos de dados separados ou erros sistemáticos durante a coleta de dados em uma determinada data). Árvores com GLM podem particionar os dados de uma maneira que nos permita encontrar os segmentos com um ajuste inadequado e segmentos para os quais o ajuste pode ser bastante bom.
A estrutura em forma de árvore permite que os efeitos dessas covariáveis sejam não lineares e altamente interativos, em vez de assumir uma influência linear na média vinculada.
Árvores com GLM podem levar a insights adicionais para um modelo paramétrico assumido a priori, especialmente se os mecanismos subjacentes forem muito complexos para serem capturados pelo GLM.
As árvores com GLM podem detectar automaticamente interações, não linearidade, especificação incorreta do modelo, influência covariável não considerada e assim por diante.
Eles podem ser usados como uma ferramenta exploratória em conjuntos de dados grandes e complexos, para os quais possui várias vantagens.
Comparado a um GLM global, uma árvore de modelo GLM pode aliviar o problema de polarização e especificação incorreta de modelo e fornecer um melhor ajuste.
Comparada aos algoritmos de árvore com constantes, a especificação de um modelo paramétrico nos nós terminais pode adicionar estabilidade extra e, portanto, reduzir a variação dos métodos de árvore.
Sendo um híbrido de árvores e modelos clássicos do tipo GLM, o desempenho geralmente fica entre esses dois pólos: eles tendem a exibir maior poder preditivo que os modelos clássicos, mas menos que as árvores não paramétricas.
Eles acrescentam alguma complexidade em comparação com o modelo clássico por causa do processo de divisão, mas geralmente são mais parcimoniosos do que as árvores não paramétricas.
Eles mostram uma variação de previsão mais alta do que um modelo global em experimentos de bootstrap, mas muito menos que as árvores não paramétricas (mesmo as podadas).
Usar um GLM no nó de uma árvore normalmente leva a árvores menores
O uso de um GLM no nó de uma árvore geralmente leva a previsões mais estáveis em comparação a uma árvore com apenas uma constante (mas não tão estável quanto ensacamento ou florestas de árvores)
A dimensão VC de uma árvore com GLM nos nós é maior que a árvore equivalente com apenas uma constante (como a segunda é um caso especial da primeira)
Com relação à "eficácia" (presumo que você queira dizer desempenho preditivo) de árvores com GLM, a maioria dos artigos citados nos dois links acima fornece alguma investigação sobre isso. No entanto, uma comparação abrangente e abrangente de todos os algoritmos com concorrentes, como árvores padrão, não foi realizada da melhor maneira possível.