Em Modelagem Preditiva Aplicada de Kuhn e Johnson, os autores escrevem:
Finalmente, essas árvores sofrem viés de seleção: preditores com um número maior de valores distintos são favorecidos em detrimento de preditores mais granulares (Loh e Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh e Shih (1997) observaram que “O perigo ocorre quando um conjunto de dados consiste em uma mistura de variáveis informativas e de ruído, e as variáveis de ruído têm muito mais divisões do que as variáveis informativas. Depois, há uma alta probabilidade de que as variáveis de ruído sejam escolhidas para dividir os nós superiores da árvore. A poda produzirá uma árvore com estrutura enganosa ou nenhuma árvore. ”
Kuhn, Max; Johnson, Kjell (17/05/2013). Modelagem Preditiva Aplicada (Locais Kindle 5241-5247). Springer Nova Iorque. Edição Kindle.
Eles continuam descrevendo algumas pesquisas sobre a construção de árvores imparciais. Por exemplo, o modelo GUIA de Loh.
Permanecendo o mais estritamente possível dentro da estrutura do CART, estou me perguntando se há algo que eu possa fazer para minimizar esse viés de seleção. Por exemplo, talvez agrupar / agrupar preditores de alta cardinalidade seja uma estratégia. Mas em que grau devemos fazer o agrupamento? Se eu tiver um preditor com 30 níveis, devo agrupar para 10 níveis? 15? 5?
Respostas:
Com base no seu comentário, eu usaria uma estrutura de inferência condicional. O código está prontamente disponível no R, usando a função ctree no pacote de terceiros. Ele possui seleção de variáveis imparcial e, embora o algoritmo subjacente a quando e como fazer divisões seja diferente em comparação ao CART, a lógica é essencialmente a mesma. Outro benefício destacado pelos autores (veja o artigo aqui ) é que você não precisa se preocupar tanto em podar a árvore para evitar o excesso de ajuste. O algoritmo realmente cuida disso usando testes de permutação para determinar se uma divisão é "estatisticamente significativa" ou não.
fonte