É "hora do dia" em que o valor pode ser 0, 1, 2, ..., 23 uma variável categórica? Eu ficaria tentado a dizer não, já que 5, por exemplo, está "mais próximo" de 4 ou 6 do que de 3 ou 7.
Por outro lado, há descontinuidade entre 23 e 0.
Então, geralmente é considerado categórico ou não? Observe que 'hora' é uma das variáveis independentes, não a variável que estou tentando prever.
categorical-data
circular-statistics
Paul Reiners
fonte
fonte
Respostas:
Dependendo do que você deseja modelar, as horas (e muitos outros atributos, como estações) são, na verdade, variáveis cíclicas ordinais. No caso das estações do ano, você pode considerá-las mais ou menos categóricas e, no caso de horas, também pode modelá-las como contínuas.
No entanto, o uso de horas no seu modelo de uma forma que não cuide da ciclicidade para você não será proveitoso. Em vez disso, tente criar algum tipo de transformação. Usando horas, você pode usar uma abordagem trigonométrica
Assim, você usaria
xhr
eyhr
para modelagem. Veja este post, por exemplo: Uso de preditores circulares em regressão linear .fonte
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
, e assim por diante podem ser adicionados, até o ponto onde, com observações suficientes você pode horas, bem tratar do dia como categórica.)A hora do dia não é melhor representada como uma variável categórica, porque há uma ordem natural dos valores. A cor do cabelo, por exemplo, é categórica, porque a ordem das categorias não tem significado - {vermelho, marrom, loiro} é tão válido quanto {loiro, marrom, vermelho}. A hora do dia, por outro lado, tem um pedido natural - 9h é mais próximo às 10h ou 8h do que às 18h. É melhor pensar como uma variável ordinal discreta. Tem uma característica adicional de ser cíclico, já que as 12 da manhã seguem as 11 da noite e precedem a 1 da manhã.
fonte
Teoricamente, depende de como você formata a variável, ou seja, ela pode ser "contínua" (modelada com um único coeficiente) ou categórica (um coeficiente por "hora" do dia). Você também pode fazer uma combinação de ambas, por exemplo, funções por peça.
Na prática, como 0 e 23 são essencialmente a mesma "hora" do dia, consideraria agrupar períodos do dia em grupos maiores, mais homogêneos e credíveis. Por exemplo, em incrementos de 8 horas - 8h às 16h, 16h-12h e 12-8h.
fonte