Viés de seleção nas árvores

8

Em Modelagem Preditiva Aplicada de Kuhn e Johnson, os autores escrevem:

Finalmente, essas árvores sofrem viés de seleção: preditores com um número maior de valores distintos são favorecidos em detrimento de preditores mais granulares (Loh e Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh e Shih (1997) observaram que “O perigo ocorre quando um conjunto de dados consiste em uma mistura de variáveis ​​informativas e de ruído, e as variáveis ​​de ruído têm muito mais divisões do que as variáveis ​​informativas. Depois, há uma alta probabilidade de que as variáveis ​​de ruído sejam escolhidas para dividir os nós superiores da árvore. A poda produzirá uma árvore com estrutura enganosa ou nenhuma árvore. ”

Kuhn, Max; Johnson, Kjell (17/05/2013). Modelagem Preditiva Aplicada (Locais Kindle 5241-5247). Springer Nova Iorque. Edição Kindle.

Eles continuam descrevendo algumas pesquisas sobre a construção de árvores imparciais. Por exemplo, o modelo GUIA de Loh.

Permanecendo o mais estritamente possível dentro da estrutura do CART, estou me perguntando se há algo que eu possa fazer para minimizar esse viés de seleção. Por exemplo, talvez agrupar / agrupar preditores de alta cardinalidade seja uma estratégia. Mas em que grau devemos fazer o agrupamento? Se eu tiver um preditor com 30 níveis, devo agrupar para 10 níveis? 15? 5?

dal233
fonte
Aqui está uma pergunta e resposta relacionada .
dal233
1
Lembre-se de que o CART não se inclina apenas contra fatores com muitos níveis, mas também com variáveis ​​potencialmente contínuas se o tamanho da sua amostra for grande. Existe algum motivo específico para você permanecer na estrutura do CART? Além do GUIDE, as árvores de inferência condicional são outra opção para evitar o viés de seleção.
dmartin
Minha impressão é que há mais códigos de prateleira escritos para o CART e, além disso, quero manter as coisas simples de explicar.
dal233
Quando eu disse "código de prateleira escrito para o CART" - eu também quis dizer todo o ecossistema ao redor do CART. Como por exemplo rpart.plot.
dal233
ctree e você verá que o pacote do partido possui muitos dos mesmos recursos que o rpart. Falta de dados é tratada através splits substitutos bem
dmartin

Respostas:

2

Com base no seu comentário, eu usaria uma estrutura de inferência condicional. O código está prontamente disponível no R, usando a função ctree no pacote de terceiros. Ele possui seleção de variáveis ​​imparcial e, embora o algoritmo subjacente a quando e como fazer divisões seja diferente em comparação ao CART, a lógica é essencialmente a mesma. Outro benefício destacado pelos autores (veja o artigo aqui ) é que você não precisa se preocupar tanto em podar a árvore para evitar o excesso de ajuste. O algoritmo realmente cuida disso usando testes de permutação para determinar se uma divisão é "estatisticamente significativa" ou não.

dmartin
fonte