Dados Inteiros: Categóricos ou Contínuos?

7

Eu estou querendo saber se dados inteiros do preditor devem ser tratados como categóricos (portanto, exigindo codificação) ou contínuos. Por exemplo, se o intervalo de um determinado preditor Xfor todo o número entre 1 e 230, posso tratá-lo como uma variável contínua ou devo codificá-lo para obter 230 (ou talvez 229) novas variáveis ​​fictícias? O objetivo final da análise é realizar regressão ou classificação.

Bruno
fonte
Você precisará ser um pouco mais específico sobre sua configuração. Às vezes é melhor tratar como categórico, às vezes como contínuo.
Dougal
@Dougal Que informações adicionais você precisaria para elaborar sua resposta? Suponha que você esteja tentando modelos diferentes (por exemplo, redes neurais, regressão do kernel, árvores potencializadas generalizadas) em um conjunto de dados mistos. Alguns preditores são "obviamente" categóricos (por exemplo, strings), enquanto outros podem ser valores naturalmente inteiros.
de Bruno
Glen está correto. Mas você também pode transformar uma ou mais variáveis ​​contínuas em categóricas, se isso tornar sua análise mais significativa.
HelloWorld

Respostas:

9

Em geral, nenhum deles é adequado. Os números inteiros são discretos , não contínuos, mas tratá-los como categorias nominais jogaria fora a maior parte da informação e até tratá-los como ordinais poderia perder um pouco.

Em algumas situações, uma ou outra pode estar bem, mas é quase sempre melhor tratá-las como elas são - por exemplo, se os dados forem importantes, use uma análise adequada para as contagens .

Como exemplo, suponha que você queira executar uma regressão nos dados da contagem; existem vários modelos de regressão de contagem, incluindo (mas não limitado a) Poisson, regressão binomial e binomial negativa.


No caso de IVs inteiros (preditores), não há mais necessidade de fazer nada com números inteiros do que de preditores contínuos - pelo menos não com base em que eles são inteiros.

No caso de preditores inteiros e preditivos contínuos, o ponto crítico é o seu entendimento (seja de teoria, estudos anteriores ou de algum outro meio) de como a variável preditora pode estar relacionada à resposta, e não ao fato de serem números inteiros.

Glen_b -Reinstate Monica
fonte
Obrigado! Eu não estava ciente da regressão para os dados da contagem. Eu misturei dados no meu problema. Algumas colunas no conjunto de dados são categorias óbvias de várias classes (strings), enquanto outras são números inteiros (por exemplo, idade, número de ocorrências de uma categoria) e algumas podem ser categorias binárias. Mas, em geral, pode haver alguns dados contínuos (reais) também. Parece que o pacote R pscl tem algumas funções relacionadas (obstáculo e zeroinfl), mas estou me perguntando se o fato de eu ter misturado dados exigiria uma abordagem diferente ... algum comentário?
de Bruno
@Bruno Não importa se os IV do são contagens (mais do que em regressão simples), é só de conseqüência que o DV é
Glen_b -Reinstate Monica
Depende do problema. Atualmente, estou testando alguns modelos de classificação binária e regressão comum (problemas diferentes, é claro). Só estou em dúvida de como lidar com certos preditores.
de Bruno
Por que você precisaria fazer alguma coisa com eles?
Glen_b -Reinstala Monica
Essa é a minha pergunta! :) Antes de enviar os dados para o modelo, fico imaginando o que o pré-processamento devo fazer com alguns dos preditores "não óbvios". Como mencionei, alguns podem ser números inteiros (e, em alguns casos, talvez eu conheça o suporte deles).
de Bruno
2

Realmente depende do contexto.

Se a variável inteira possui alguma ordem inerente, por exemplo, podem ser cores em que números mais baixos representam "tons mais escuros" e números mais altos representam "tons mais claros", então tratá-la como uma variável contínua é quase certamente preferível. Não apenas faria mais sentido, mas você está eliminando cerca de 200 variáveis ​​do seu modelo, o que é um grande bônus.

Por outro lado, se esses números inteiros não têm ordem inerente, digamos, por exemplo, que representam lotes de terra, eles devem ser tratados como uma variável categórica. Não faria sentido tratá-los como uma variável contínua, pois seu valor é independente da propriedade da variável em que você está interessado.

Patty
fonte
Entendo ... "idade" é tipicamente considerada contínua? Além disso, um dos preditores corresponde ao número de ocorrências de uma determinada categoria como parte do suporte de outro preditor.
de Bruno
0

Você não precisa fazer nenhum dos 2 que você declarou. O que você pode fazer é regressão. No R in glm, você tem a opção de definir o atributo family, no qual você pode definir sua preferência. Por exemplo, quando você considera a regressão normal family = gaussian e se deseja contar a variável de destino do tipo conforme explicado na pergunta, acho que precisa defini-la como binomial (verifique uma vez), mas sim, é assim que seu modelo considerará sua segmentar como tipo de contagem, em vez de contínuo ou categórico.

somsom
fonte