Previsão com randomForest (R) quando algumas entradas têm valores ausentes (NA)

9

Eu tenho um bom randomForestmodelo de classificação que gostaria de usar em um aplicativo que prevê a classe de um novo caso. O novo caso tem inevitavelmente valores ausentes. Prever não funcionará como tal para NAs. Como devo fazer isso então?

data(iris)
# create first the new case with missing values
na.row<-45
na.col<-c(3,5)
case.na<-iris[na.row,]
case.na[,na.col]<-NA

iris.rf <- randomForest(Species ~ ., data=iris[-na.row,])
# print(iris.rf)

myrf.pred <- predict(iris.rf, case.na[-5], type="response")
myrf.pred
[1] <NA>

Eu tentei missForest. Combinei os dados originais e o novo caso, agitei com eles missForeste obtive valores imputados para NAs no meu novo caso. Computação muito pesada, no entanto.

data.imp <- missForest(data.with.na)

Mas deve haver uma maneira de usar o modelo rf para prever um novo caso com valores ausentes, certo?

hermo
fonte
4
Existem várias maneiras de manipular valores ausentes nas árvores de decisão, mas o randomForestpacote em R possui apenas o método de imputação que você descreveu. Se você deseja permanecer em um ambiente semelhante, gbmpossui um método um pouco mais suave de lidar com valores ausentes em novos dados (não é perfeito, mas é útil).
Shea Parkes
Eu acho que partido ofertas de pacotes melhor com valores em falta
Simone
Caro @Simone, como o partypacote funciona com NAs no conjunto de testes? Não encontrei vestígios de imputação em partymanuais ou exemplos.
hermo
O @hermo tenta dar uma olhada no artigo do partido citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930 , parece que o algoritmo funciona como CART - procura divisões substitutas.
Simone
Tente usar "na.action = na.roughfix".

Respostas:

1

Você não tem escolha a não ser imputar os valores ou alterar modelos. Uma boa opção pode ser negativa no pacote Hmisc. Eu acho que é menos pesado que o rfimpute, que é o que está prendendo você, primeiro exemplo de pacote (existem outros):

# Check that aregImpute can almost exactly estimate missing values when
# there is a perfect nonlinear relationship between two variables
# Fit restricted cubic splines with 4 knots for x1 and x2, linear for x3
set.seed(3)
x1 <- rnorm(200)
x2 <- x1^2
x3 <- runif(200)
m <- 30
x2[1:m] <- NA
a <- aregImpute(~x1+x2+I(x3), n.impute=5, nk=4, match='closest')
a
matplot(x1[1:m]^2, a$imputed$x2)
abline(a=0, b=1, lty=2)

x1[1:m]^2
a$imputed$x2

# Multiple imputation and estimation of variances and covariances of
# regression coefficient estimates accounting for imputation
# Example 1: large sample size, much missing data, no overlap in
# NAs across variables
x1 <- factor(sample(c('a','b','c'),1000,TRUE))
x2 <- (x1=='b') + 3*(x1=='c') + rnorm(1000,0,2)
x3 <- rnorm(1000)
y  <- x2 + 1*(x1=='c') + .2*x3 + rnorm(1000,0,2)
orig.x1 <- x1[1:250]
orig.x2 <- x2[251:350]
x1[1:250] <- NA
x2[251:350] <- NA
d <- data.frame(x1,x2,x3,y)
# Find value of nk that yields best validating imputation models
# tlinear=FALSE means to not force the target variable to be linear
f <- aregImpute(~y + x1 + x2 + x3, nk=c(0,3:5), tlinear=FALSE,
                data=d, B=10) # normally B=75
f
# Try forcing target variable (x1, then x2) to be linear while allowing
# predictors to be nonlinear (could also say tlinear=TRUE)
f <- aregImpute(~y + x1 + x2 + x3, nk=c(0,3:5), data=d, B=10)
f

# Use 100 imputations to better check against individual true values
f <- aregImpute(~y + x1 + x2 + x3, n.impute=100, data=d)
f
par(mfrow=c(2,1))
plot(f)
modecat <- function(u) {
 tab <- table(u)
 as.numeric(names(tab)[tab==max(tab)][1])
}
table(orig.x1,apply(f$imputed$x1, 1, modecat))
par(mfrow=c(1,1))
plot(orig.x2, apply(f$imputed$x2, 1, mean))
fmi <- fit.mult.impute(y ~ x1 + x2 + x3, lm, f, 
                       data=d)
sqrt(diag(vcov(fmi)))
fcc <- lm(y ~ x1 + x2 + x3)
summary(fcc)   # SEs are larger than from mult. imputation

Você mencionou que tem muitas observações novas que têm valores ausentes nas variáveis ​​independentes. Embora você tenha muitos casos como esse, se para cada nova observação houver apenas uma falta em uma ou duas de suas variáveis ​​e sua quantidade de variáveis ​​não for pequena, talvez apenas preencha os buracos com uma mediana ou média (eles são contínuos?) poderia trabalhar.

Outra coisa que poderia ser interessante é fazer uma análise de importância variável menor. A implementação da floresta aleatória R calcula duas medidas de importância e respectivas plotagens:

varImpPlot(yourRandomForestModel) # yourRandomForestModel must have the argument importance=TRUE 

E você pode brincar apenas incluindo variáveis ​​"importantes" no treinamento do modelo, até que a precisão da previsão não seja a única afetada em comparação com o "modelo completo". Talvez você mantenha variáveis ​​com um número baixo de erros. Isso pode ajudar a reduzir o tamanho do seu problema.

JEquihua
fonte