Diferença entre as.POSIXct / as.POSIXlt e strptime para converter vetores de caracteres em POSIXct / POSIXlt

93

Eu segui uma série de perguntas aqui sobre como converter vetores de caracteres em classes de data e hora. Costumo ver 2 métodos, o strptime e os métodos as.POSIXct / as.POSIXlt. Eu olhei para as 2 funções, mas não estou certo de qual é a diferença.

strptime

function (x, format, tz = "") 
{
    y <- .Internal(strptime(as.character(x), format, tz))
    names(y$year) <- names(x)
    y
}
<bytecode: 0x045fcea8>
<environment: namespace:base>

as.POSIXct

function (x, tz = "", ...) 
UseMethod("as.POSIXct")
<bytecode: 0x069efeb8>
<environment: namespace:base>

as.POSIXlt

function (x, tz = "", ...) 
UseMethod("as.POSIXlt")
<bytecode: 0x03ac029c>
<environment: namespace:base>

Fazer um microbenchmark para ver se há diferenças de desempenho:

library(microbenchmark)
Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d-%m-%Y')), 5000, replace = TRUE)
df <- microbenchmark(strptime(Dates, "%d-%m-%Y"), as.POSIXlt(Dates, format = "%d-%m-%Y"), times = 1000)

Unit: milliseconds
                                    expr      min       lq   median       uq      max
1 as.POSIXlt(Dates, format = "%d-%m-%Y") 32.38596 33.81324 34.78487 35.52183 61.80171
2            strptime(Dates, "%d-%m-%Y") 31.73224 33.22964 34.20407 34.88167 52.12422

strptime parece um pouco mais rápido. então o que dá? por que haveria 2 funções semelhantes ou há diferenças entre elas que eu perdi?

RJ-
fonte
4
Se você quiser ver qual código está sendo chamado ao chamar as.POSIXcte as.POSIXltnos vetores de caracteres, olhe as.POSIXct.defaulte as.POSIXlt.character, respectivamente.
Joshua Ulrich

Respostas:

153

Bem, as funções fazem coisas diferentes.

Primeiro, existem duas implementações internas de data / hora POSIXct:, que armazena segundos desde a época do UNIX (+ alguns outros dados) e POSIXlt, que armazena uma lista de dia, mês, ano, hora, minuto, segundo, etc.

strptimeé uma função para converter diretamente vetores de caracteres (de uma variedade de formatos) para o POSIXltformato.

as.POSIXltconverte uma variedade de tipos de dados em POSIXlt. Ele tenta ser inteligente e fazer o que é sensato - no caso do personagem, ele atua como um invólucro para strptime.

as.POSIXctconverte uma variedade de tipos de dados em POSIXct. Ele também tenta ser inteligente e fazer a coisa sensata - no caso do personagem, ele corre strptimeprimeiro, depois faz a conversão de POSIXltpara POSIXct.

Faz sentido que strptimeseja mais rápido, porque strptimeapenas lida com a entrada de caracteres, enquanto os outros tentam determinar qual método usar a partir do tipo de entrada. Também deveria ser um pouco mais seguro, pois receber dados inesperados apenas resultaria em erro, em vez de tentar fazer a coisa inteligente que pode não ser o que você deseja.

Fhnuzoag
fonte
Ótima resposta. existe um consenso sobre qual é a melhor prática para compilar dados para fins de modelagem ou visualização de dados?
dre
22

Existem dois tipos POSIXt, POSIXct e POSIXlt. "ct" pode significar tempo de calendário, ele armazena o número de segundos desde a origem. "lt", ou hora local, mantém a data como uma lista de atributos de hora (como "hora" e "mon"). Experimente estes exemplos:

date.hour=strptime("2011-03-27 01:30:00", "%Y-%m-%d %H:%M:%S")

date=c("26/10/2016")

time=c("19:51:30")

day<-paste(date,"T", time)

day.time1=as.POSIXct(day,format="%d/%m/%Y T %H:%M:%S",tz="Europe/Paris")

day.time1

day.time1$year

day.time2=as.POSIXlt(day,format="%d/%m/%Y T %H:%M:%S",tz="Europe/Paris")

day.time2

day.time2$year
Kuong
fonte