A hora do dia é uma variável categórica?

24

É "hora do dia" em que o valor pode ser 0, 1, 2, ..., 23 uma variável categórica? Eu ficaria tentado a dizer não, já que 5, por exemplo, está "mais próximo" de 4 ou 6 do que de 3 ou 7.

Por outro lado, há descontinuidade entre 23 e 0.

Então, geralmente é considerado categórico ou não? Observe que 'hora' é uma das variáveis ​​independentes, não a variável que estou tentando prever.

Paul Reiners
fonte
7
O que você está tentando realizar? Se você está ajustando um modelo, a hora é uma covariável ou a resposta, por exemplo?
gung - Restabelece Monica
2
Você pode usar uma variável fictícia para cada hora se tiver graus de liberdade suficientes (ou seja, tratar como categórico) ou usar os primeiros termos de Fourier, se não tiver. Em geral, pense em como melhor representar uma relação potencial com a resposta - uma única variável fictícia sinalizada quando as lojas estão abertas pode servir.
Scortchi - Restabelece Monica
Algo como hora pode ser tratado como "categórico" ou "numérico", dependendo do que funciona melhor. Não existe uma resposta certa ou errada em geral - depende do que funciona melhor. Eu recomendo tentar coisas diferentes e ver o que funciona melhor na sua situação.
roundsquare

Respostas:

29

Dependendo do que você deseja modelar, as horas (e muitos outros atributos, como estações) são, na verdade, variáveis ​​cíclicas ordinais. No caso das estações do ano, você pode considerá-las mais ou menos categóricas e, no caso de horas, também pode modelá-las como contínuas.

No entanto, o uso de horas no seu modelo de uma forma que não cuide da ciclicidade para você não será proveitoso. Em vez disso, tente criar algum tipo de transformação. Usando horas, você pode usar uma abordagem trigonométrica

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Assim, você usaria xhre yhrpara modelagem. Veja este post, por exemplo: Uso de preditores circulares em regressão linear .

Drey
fonte
2
(+1) Você poderia elaborar a diferença entre estações e horas?
Scortchi - Restabelece Monica
Hmm, acho que as estações têm um significado semelhante, como manhã, meio-dia e noite, quando falamos de horas durante o dia. Imho quando apenas informações vagas estão disponíveis e a resolução é baixa (como 4 valores nas estações), considerá-las categóricas e usar variáveis ​​fictícias para codificação parece razoável. :-)
Drey 14/11
1
Eu acho que o ponto principal é que, porque existem apenas 4 temporadas, usando o trigonométrico. abordagem comparada a uma representação categórica, você poupa apenas 1 grau de liberdade - com horas do dia, você poupa 21 graus de liberdade. (E se você não precisa para poupá-los, em seguida xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24), e assim por diante podem ser adicionados, até o ponto onde, com observações suficientes você pode horas, bem tratar do dia como categórica.)
Scortchi - Reintegrar Monica
Ou observe splines cíclicos .
kjetil b halvorsen
1

A hora do dia não é melhor representada como uma variável categórica, porque há uma ordem natural dos valores. A cor do cabelo, por exemplo, é categórica, porque a ordem das categorias não tem significado - {vermelho, marrom, loiro} é tão válido quanto {loiro, marrom, vermelho}. A hora do dia, por outro lado, tem um pedido natural - 9h é mais próximo às 10h ou 8h do que às 18h. É melhor pensar como uma variável ordinal discreta. Tem uma característica adicional de ser cíclico, já que as 12 da manhã seguem as 11 da noite e precedem a 1 da manhã.

Wang nuclear
fonte
Não existe uma ordem natural para os valores de certas variáveis ​​categóricas?
dsaxton
Sim, mas são melhor descritos como ordinais nesse caso. Variáveis ​​ordinais são variáveis ​​categóricas que possuem uma sequência natural.
Wang Nuclear
1
Então, como você representaria uma variável cíclica, ordinal e discreta como preditor em um modelo de regressão?
Scortchi - Restabelece Monica
0

Teoricamente, depende de como você formata a variável, ou seja, ela pode ser "contínua" (modelada com um único coeficiente) ou categórica (um coeficiente por "hora" do dia). Você também pode fazer uma combinação de ambas, por exemplo, funções por peça.

Na prática, como 0 e 23 são essencialmente a mesma "hora" do dia, consideraria agrupar períodos do dia em grupos maiores, mais homogêneos e credíveis. Por exemplo, em incrementos de 8 horas - 8h às 16h, 16h-12h e 12-8h.

Frank H.
fonte
4
0 e 23 são horas distintas. 0 e 24 seria a mesma hora.
Paul Reiners
BTW, estou assumindo pelo comentário de Gung que a hora do dia é uma variável independente, não a variável dependente modelada. O que quero dizer é que 0 e 23 não são tão diferentes na realidade - você diria que há uma diferença estatística entre o evento modelado que ocorre às 23:59 e às 0:01?
Frank H.
1
Não sei ao certo qual problema de descartar informações deve resolver. Consulte Qual é o benefício de dividir uma variável preditora contínua? .
Scortchi - Restabelece Monica
@ Scortchi - como o post diz, você está assumindo um relacionamento contínuo, de modo que o binning "jogaria fora" as informações. Mas, se esse não for o caso, o binning é a transformação mais apropriada. E isso pressupõe que você tenha dados suficientes para começar, os quais o OP não mencionou.
Frank H.
A imposição de restrições na relação entre um preditor e a resposta não é, em si, uma coisa ruim - como você é o primeiro neste post a comentar, quantas observações estão disponíveis é uma consideração importante -, mas a imposta por isso a representação da hora do dia - plana das oito às quinze horas, com um salto ou queda às dezesseis, e assim por diante - parece uma sugestão estranha para uma abordagem geralmente adequada.
Scortchi - Restabelece Monica