Como incluir um termo de interação em um modelo aleatório de floresta

9

Estou usando a função randomForestno randomForestpacote de R para fazer uma regressão. No entanto, quando estou tentando incluir um termo de interação nos seguintes códigos:

library(MASS)
library(randomForest)
Boston_f <- within(Boston, factor(rad))
mdl <- randomForest(lstat ~ rad * . , data = Boston_f)

O resultado mdl$terminclui interação, mas se eu espiar as árvores que mdlestão usando,

getTree(mdl, 1, T)

Não consigo encontrar nenhuma variável dividida usando o termo de interação.

Alguém sabe como incluir termo de interação usando randomForestou outra função?

Yifei Liu
fonte
1
Embora esta pergunta seja sobre o código R, acredito que seja motivada por um mal-entendido estatístico / ML. Quando isso é abordado, os aspectos específicos do código R serão discutidos. Como tal, acho que isso deve permanecer aberto.
gung - Restabelece Monica
As perguntas exclusivamente sobre como o software funciona não são abordadas aqui, mas você pode ter uma pergunta estatística real oculta aqui. Você pode editar sua pergunta para esclarecer o problema estatístico subjacente. Você pode descobrir que, ao entender os conceitos estatísticos envolvidos, os elementos específicos do software são evidentes ou pelo menos fáceis de obter na documentação.
gung - Restabelece Monica

Respostas:

12

Os modelos baseados em árvore consideram variáveis ​​sequencialmente, o que as torna úteis para considerar as interações sem especificá-las. As interações úteis para previsão serão facilmente capturadas com uma floresta grande o suficiente, portanto, não há necessidade real de incluir um termo de interação explícito.

Se você acredita que a interação é importante, você pode criar manualmente o termo de interação (por exemplo, definindo seu formuladentro da model.framefunção, o que criará novas colunas para seus termos de interação). No entanto, no seu caso, isso quase dobraria o número de variáveis, à medida que você cria interações entre rade todos os outros recursos, portanto é provavelmente desaconselhável.

Consulte também Incluindo termos de interação na floresta aleatória, que demonstra a capacidade inerente da Random Forests de detectar variáveis ​​interagentes em comparação com métodos lineares.

Michael Veale
fonte