Converta classes de coluna em data.table

118

Tenho um problema ao usar data.table: Como converter classes de colunas? Aqui está um exemplo simples: Com data.frame não tenho problemas para convertê-lo, com data.table, só não sei como:

df <- data.frame(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10))
#One way: http://stackoverflow.com/questions/2851015/r-convert-data-frame-columns-from-factors-to-characters
df <- data.frame(lapply(df, as.character), stringsAsFactors=FALSE)
#Another way
df[, "value"] <- as.numeric(df[, "value"])

library(data.table)
dt <- data.table(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10))
dt <- data.table(lapply(dt, as.character), stringsAsFactors=FALSE) 
#Error in rep("", ncol(xi)) : invalid 'times' argument
#Produces error, does data.table not have the option stringsAsFactors?
dt[, "ID", with=FALSE] <- as.character(dt[, "ID", with=FALSE]) 
#Produces error: Error in `[<-.data.table`(`*tmp*`, , "ID", with = FALSE, value = "c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2)") : 
#unused argument(s) (with = FALSE)

Eu sinto falta de algo óbvio aqui?

Atualização devido ao post de Matthew: Eu usei uma versão mais antiga antes, mas mesmo depois de atualizar para 1.6.6 (a versão que uso agora) ainda recebo um erro.

Atualização 2: digamos que eu queira converter todas as colunas da classe "fator" em uma coluna "caractere", mas não sei com antecedência qual coluna pertence a qual classe. Com um data.frame, posso fazer o seguinte:

classes <- as.character(sapply(df, class))
colClasses <- which(classes=="factor")
df[, colClasses] <- sapply(df[, colClasses], as.character)

Posso fazer algo semelhante com data.table?

Atualização 3:

sessionInfo () R versão 2.13.1 (2011-07-08) Plataforma: x86_64-pc-mingw32 / x64 (64 bits)

locale:
[1] C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] data.table_1.6.6

loaded via a namespace (and not attached):
[1] tools_2.13.1
Christoph_J
fonte
Os argumentos do operador "[" em data.tablemétodos são diferentes do que são paradata.frame
IRTFM
1
Cole o erro real em vez de #Produces error. 1 de qualquer maneira. Não recebo nenhum erro, qual versão você tem? Porém, há um problema nessa área, já mencionado antes. FR # 1224 e FR # 1493 são de alta prioridade para resolver. A resposta de Andrie é a melhor maneira, no entanto.
Matt Dowle
Desculpe @MatthewDowle por perder isso na minha pergunta, eu atualizei meu post.
Christoph_J
1
@Christoph_J Obrigado. Você tem certeza desse invalid times argumenterro? Funciona bem para mim. Qual versão você tem?
Matt Dowle
Eu atualizei meu post com o sessionInfo (). No entanto, eu verifiquei na minha máquina de trabalho hoje. Ontem, na minha máquina doméstica (Ubuntu) ocorreu o mesmo erro. Vou atualizar R e ver se o problema ainda está lá.
Christoph_J

Respostas:

104

Para uma única coluna:

dtnew <- dt[, Quarter:=as.character(Quarter)]
str(dtnew)

Classes ‘data.table’ and 'data.frame':  10 obs. of  3 variables:
 $ ID     : Factor w/ 2 levels "A","B": 1 1 1 1 1 2 2 2 2 2
 $ Quarter: chr  "1" "2" "3" "4" ...
 $ value  : num  -0.838 0.146 -1.059 -1.197 0.282 ...

Usando lapplye as.character:

dtnew <- dt[, lapply(.SD, as.character), by=ID]
str(dtnew)

Classes ‘data.table’ and 'data.frame':  10 obs. of  3 variables:
 $ ID     : Factor w/ 2 levels "A","B": 1 1 1 1 1 2 2 2 2 2
 $ Quarter: chr  "1" "2" "3" "4" ...
 $ value  : chr  "1.487145280568" "-0.827845218358881" "0.028977182770002" "1.35392750102305" ...
Andrie
fonte
2
@Christoph_J Por favor, mostre o comando de agrupamento com o qual você está lutando (o problema real). Pense que você pode ter perdido algo simples. Por que você está tentando converter classes de coluna?
Matt Dowle
1
@Christoph_J Se você tem dificuldade para manipular data.tables, por que não simplesmente convertê-los temporariamente em data.frames, fazer a limpeza de dados e depois convertê-los de volta em data.tables?
Andrie
17
Qual é a maneira idiomática de fazer isso para um subconjunto de colunas (em vez de todas elas)? Eu defini um vetor convcolsde caracteres de colunas. dt[,lapply(.SD,as.numeric),.SDcols=convcols]é quase instantâneo enquanto dt[,convcols:=lapply(.SD,as.numeric),.SDcols=convcols]quase congela R, então estou supondo que estou fazendo errado. Obrigado
Frank
4
@Frank Veja o comentário de Matt Dowle à resposta de Geneorama abaixo ( stackoverflow.com/questions/7813578/… ); foi útil e idiomático o suficiente para mim [citação inicial] Outra maneira mais fácil é usar, set()por exemplo, for (col in names_factors) set(dt, j=col, value=as.factor(dt[[col]]))[citação final]
swihart
4
Por que você usa a opção por = ID?
skan de
48

Tente isto

DT <- data.table(X1 = c("a", "b"), X2 = c(1,2), X3 = c("hello", "you"))
changeCols <- colnames(DT)[which(as.vector(DT[,lapply(.SD, class)]) == "character")]

DT[,(changeCols):= lapply(.SD, as.factor), .SDcols = changeCols]
Nera
fonte
7
agora você pode usar a Filterfunção para identificar as colunas, por exemplo: changeCols<- names(Filter(is.character, DT))
David Leal
1
IMO esta é a melhor resposta, pelo motivo que dei na resposta escolhida.
James Hirschorn
1
ou de forma mais concisa: changeCols <- names(DT)[sapply(DT, is.character)].
sindri_baldur
8

Levantando o comentário de Matt Dowle à resposta de Geneorama ( https://stackoverflow.com/a/20808945/4241780 ) para torná-lo mais óbvio (conforme recomendado), você pode usar for(...)set(...).


library(data.table)

DT = data.table(a = LETTERS[c(3L,1:3)], b = 4:7, c = letters[1:4])
DT1 <- copy(DT)
names_factors <- c("a", "c")

for(col in names_factors)
  set(DT, j = col, value = as.factor(DT[[col]]))

sapply(DT, class)
#>         a         b         c 
#>  "factor" "integer"  "factor"

Criado em 12/02/2020 pelo pacote reprex (v0.3.0)

Veja outro comentário de Matt em https://stackoverflow.com/a/33000778/4241780 para mais informações.

Editar.

Conforme observado por Espen e em help(set), jpode ser "Nome (s) de coluna (caractere) ou número (s) (inteiro) a ser atribuído valor quando coluna (s) já existem". Então names_factors <- c(1L, 3L)também funcionará.

JWilliman
fonte
Você pode querer adicionar o que names_factorsestá aqui. Eu acho que foi tirado de stackoverflow.com/a/20808945/1666063 então é names_factors = c('fac1', 'fac2')neste caso - que são os nomes das colunas. Mas também podem ser os números das colunas, por exemplo 1; ncol (dt) que converteria todas as colunas
Espen Riskedal
@EspenRiskedal Obrigado, bom ponto, eu editei o post para torná-lo mais óbvio.
JWilliman
2

Esta é uma maneira RUIM de fazer isso! Só estou deixando esta resposta caso ela resolva outros problemas estranhos. Esses métodos melhores são provavelmente, em parte, o resultado de versões mais novas de data.table ... portanto, vale a pena documentar dessa maneira difícil. Além disso, este é um bom exemplo de eval substitutesintaxe para sintaxe.

library(data.table)
dt <- data.table(ID = c(rep("A", 5), rep("B",5)), 
                 fac1 = c(1:5, 1:5), 
                 fac2 = c(1:5, 1:5) * 2, 
                 val1 = rnorm(10),
                 val2 = rnorm(10))

names_factors = c('fac1', 'fac2')
names_values = c('val1', 'val2')

for (col in names_factors){
  e = substitute(X := as.factor(X), list(X = as.symbol(col)))
  dt[ , eval(e)]
}
for (col in names_values){
  e = substitute(X := as.numeric(X), list(X = as.symbol(col)))
  dt[ , eval(e)]
}

str(dt)

o que dá a você

Classes ‘data.table’ and 'data.frame':  10 obs. of  5 variables:
 $ ID  : chr  "A" "A" "A" "A" ...
 $ fac1: Factor w/ 5 levels "1","2","3","4",..: 1 2 3 4 5 1 2 3 4 5
 $ fac2: Factor w/ 5 levels "2","4","6","8",..: 1 2 3 4 5 1 2 3 4 5
 $ val1: num  0.0459 2.0113 0.5186 -0.8348 -0.2185 ...
 $ val2: num  -0.0688 0.6544 0.267 -0.1322 -0.4893 ...
 - attr(*, ".internal.selfref")=<externalptr> 
geneorama
fonte
42
Outra maneira mais fácil é usar, set()por exemplofor (col in names_factors) set(dt, j=col, value=as.factor(dt[[col]]))
Matt Dowle
1
Acho que minha resposta cumpre isso em uma linha, para todas as versões. Não tenho certeza se seté mais apropriado.
Ben Rollert
1
Mais informações for(...)set(...)aqui: stackoverflow.com/a/33000778/403310
Matt Dowle
1
@skan: Boa pergunta. Se você não conseguir encontrar a pergunta anterior, faça uma nova pergunta. Ajuda outros no futuro.
Matt Dowle
1
@skan foi assim que eu fiz: github.com/geneorama/geneorama/blob/master/R/…
geneorama
0

Tentei várias abordagens.

# BY {dplyr}
data.table(ID      = c(rep("A", 5), rep("B",5)), 
           Quarter = c(1:5, 1:5), 
           value   = rnorm(10)) -> df1
df1 %<>% dplyr::mutate(ID      = as.factor(ID),
                       Quarter = as.character(Quarter))
# check classes
dplyr::glimpse(df1)
# Observations: 10
# Variables: 3
# $ ID      (fctr) A, A, A, A, A, B, B, B, B, B
# $ Quarter (chr) "1", "2", "3", "4", "5", "1", "2", "3", "4", "5"
# $ value   (dbl) -0.07676732, 0.25376110, 2.47192852, 0.84929175, -0.13567312,  -0.94224435, 0.80213218, -0.89652819...

, ou então

# from list to data.table using data.table::setDT
list(ID      = as.factor(c(rep("A", 5), rep("B",5))), 
     Quarter = as.character(c(1:5, 1:5)), 
     value   = rnorm(10)) %>% setDT(list.df) -> df2
class(df2)
# [1] "data.table" "data.frame"
uribo
fonte
0

Eu ofereço uma maneira mais geral e segura de fazer essas coisas,

".." <- function (x) 
{
  stopifnot(inherits(x, "character"))
  stopifnot(length(x) == 1)
  get(x, parent.frame(4))
}


set_colclass <- function(x, class){
  stopifnot(all(class %in% c("integer", "numeric", "double","factor","character")))
  for(i in intersect(names(class), names(x))){
    f <- get(paste0("as.", class[i]))
    x[, (..("i")):=..("f")(get(..("i")))]
  }
  invisible(x)
}

A função ..garante que obtenhamos uma variável fora do escopo de data.table; set_colclass irá definir as classes de seus cols. Você pode usá-lo assim:

dt <- data.table(i=1:3,f=3:1)
set_colclass(dt, c(i="character"))
class(dt$i)
liqg3
fonte
-1

Se você tiver uma lista de nomes de colunas em data.table, você deseja alterar a classe de do:

convert_to_character <- c("Quarter", "value")

dt[, convert_to_character] <- dt[, lapply(.SD, as.character), .SDcols = convert_to_character]
Emil Lykke Jensen
fonte
Essa resposta é essencialmente uma versão ruim da resposta de @Nera abaixo. Basta fazer dt[, c(convert_to_character) := lapply(.SD, as.character), .SDcols=convert_to_character]para atribuir por referência, em vez de usar a atribuição mais lenta de data.frame.
altabq
-3

experimentar:

dt <- data.table(A = c(1:5), 
                 B= c(11:15))

x <- ncol(dt)

for(i in 1:x) 
{
     dt[[i]] <- as.character(dt[[i]])
}
user151444
fonte