Eu estou querendo saber se dados inteiros do preditor devem ser tratados como categóricos (portanto, exigindo codificação) ou contínuos. Por exemplo, se o intervalo de um determinado preditor X
for todo o número entre 1 e 230, posso tratá-lo como uma variável contínua ou devo codificá-lo para obter 230 (ou talvez 229) novas variáveis fictícias? O objetivo final da análise é realizar regressão ou classificação.
7
Respostas:
Em geral, nenhum deles é adequado. Os números inteiros são discretos , não contínuos, mas tratá-los como categorias nominais jogaria fora a maior parte da informação e até tratá-los como ordinais poderia perder um pouco.
Em algumas situações, uma ou outra pode estar bem, mas é quase sempre melhor tratá-las como elas são - por exemplo, se os dados forem importantes, use uma análise adequada para as contagens .
Como exemplo, suponha que você queira executar uma regressão nos dados da contagem; existem vários modelos de regressão de contagem, incluindo (mas não limitado a) Poisson, regressão binomial e binomial negativa.
No caso de IVs inteiros (preditores), não há mais necessidade de fazer nada com números inteiros do que de preditores contínuos - pelo menos não com base em que eles são inteiros.
No caso de preditores inteiros e preditivos contínuos, o ponto crítico é o seu entendimento (seja de teoria, estudos anteriores ou de algum outro meio) de como a variável preditora pode estar relacionada à resposta, e não ao fato de serem números inteiros.
fonte
Realmente depende do contexto.
Se a variável inteira possui alguma ordem inerente, por exemplo, podem ser cores em que números mais baixos representam "tons mais escuros" e números mais altos representam "tons mais claros", então tratá-la como uma variável contínua é quase certamente preferível. Não apenas faria mais sentido, mas você está eliminando cerca de 200 variáveis do seu modelo, o que é um grande bônus.
Por outro lado, se esses números inteiros não têm ordem inerente, digamos, por exemplo, que representam lotes de terra, eles devem ser tratados como uma variável categórica. Não faria sentido tratá-los como uma variável contínua, pois seu valor é independente da propriedade da variável em que você está interessado.
fonte
Você não precisa fazer nenhum dos 2 que você declarou. O que você pode fazer é regressão. No R in glm, você tem a opção de definir o atributo family, no qual você pode definir sua preferência. Por exemplo, quando você considera a regressão normal family = gaussian e se deseja contar a variável de destino do tipo conforme explicado na pergunta, acho que precisa defini-la como binomial (verifique uma vez), mas sim, é assim que seu modelo considerará sua segmentar como tipo de contagem, em vez de contínuo ou categórico.
fonte