Quando leio sobre como configurar seus dados, uma coisa que me deparo com frequência é que transformar alguns dados contínuos em dados categóricos não é uma boa ideia, pois você pode muito bem fazer a conclusão errada se os limites forem mal determinados.
No entanto, atualmente tenho alguns dados (valores de PSA para pacientes com câncer de próstata), onde acho que o consenso comum é que, se você estiver abaixo de 4, provavelmente não o possui, se estiver acima de você corre o risco e, em seguida, algo como acima de 10 e 20, você provavelmente tem. Algo parecido. Nesse caso, ainda seria incorreto categorizar meus valores contínuos de PSA em grupos, digamos 0-4, 4-10 e> 10? Ou é realmente bom, já que os limites são "bem determinados" por assim dizer.
fonte
Respostas:
Existe uma descontinuidade acentuada nos seus limites?
Por exemplo, suponha que você tenha dois pacientes A e B com os valores 3,9 e 4,1 e outros dois pacientes C e D com os valores 6,7 e 6,9. A diferença na probabilidade de câncer entre A e B é muito maior que a diferença correspondente entre C e D?
Se sim, então discretizar faz sentido.
Caso contrário, seus limites podem fazer sentido para entender seus dados, mas eles não são "bem determinados" em um sentido estatisticamente significativo. Não discretize. Em vez disso, use as pontuações de seu teste "como estão" e, se você suspeitar de algum tipo de não linearidade, use splines .
Isso é muito recomendado.
fonte
Eu acho que a resposta padrão é que é sempre ruim porque você perde informações no processo. É difícil acreditar que exista um caso em que você ganharia algo ao pegar dados de intervalos naturais e torná-los categóricos.
fonte