Várias fontes sugerem que existem muitas consequências negativas da discretização (categorização) de variáveis contínuas antes da análise estatística (amostra de referências [1] - [4] abaixo).
Por outro lado, [5] sugere que algumas técnicas de aprendizado de máquina são conhecidas por produzir melhores resultados quando variáveis contínuas são discretizadas (também observando que os métodos supervisionados de discretização têm melhor desempenho).
Estou curioso para saber se existem benefícios ou justificativas amplamente aceitos para essa prática, do ponto de vista estatístico?
Em particular, haveria justificativa para discretizar variáveis contínuas em uma análise GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dicotomizando preditores contínuos em regressão múltipla: uma má idéia. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflação da taxa de erro Tipo I em regressão múltipla quando variáveis independentes são medidas com erro. The Canadian Journal of Statistics 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Consequências negativas da dicotomização de variáveis preditoras contínuas. Jornal de Pesquisa de Marketing 2003; 40: 366-371.
[4] Harrell Jr FE. Problemas causados pela categorização de variáveis contínuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Acesso em 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de Discretização: Uma pesquisa recente". GESTS Transações internacionais em ciência da computação e engenharia 32 (1): 47–58.
Respostas:
O objetivo dos modelos estatísticos é modelar (aproximar) uma realidade subjacente desconhecida. Quando você discretiza algo que é naturalmente contínuo, está dizendo que todas as respostas para um intervalo de variáveis preditivas são exatamente as mesmas, e então há um salto repentino para o próximo intervalo. Você realmente acredita que o mundo natural funciona tendo uma grande diferença na resposta entre os valores-x de 9,999 e 10,001, enquanto não há diferença entre 9,001 e 9,999 (assumindo que um dos intervalos seja 9-10)? Não consigo pensar em nenhum processo natural que consideraria plausivelmente trabalhar dessa maneira.
Agora, existem muitos processos naturais que agem de maneira não linear; a mudança de 8 para 9 no preditor pode fazer uma mudança muito diferente na resposta do que uma mudança de 10 para 11. E, portanto, um preditor discreto pode se encaixar melhor do que um relacionamento linear, mas isso é porque é permitido mais graus de liberdade. Porém, existem outras maneiras de permitir graus adicionais de liberdade, como polinômios ou splines, e essas opções nos permitem penalizar para obter um certo nível de suavidade e manter algo que seja uma melhor aproximação do processo natural subjacente.
fonte
Edit: Por causa da tendência de outras respostas que estou vendo, um pequeno aviso: minha resposta é motivada por uma perspectiva de aprendizado de máquina e não por modelagem estatística.
Alguns modelos, como o Naive Bayes, não funcionam com recursos contínuos. Discretizar os recursos pode ajudar a usá-los com desempenho (muito) melhor. Geralmente, os modelos que não se baseiam no caráter "numérico" do recurso (as árvores de decisão vêm à mente) não são afetados demais desde que a discretização não seja brutal. Alguns outros modelos, no entanto, terão um desempenho muito baixo se a discritização for muito importante. Por exemplo, os GLMs não terão absolutamente nenhum benefício com o processo.
Em alguns casos, quando o tempo de memória / processamento se torna um fator limitante, a discretização de recursos permite agregar um conjunto de dados, reduzindo seu tamanho e seu consumo de tempo de memória / computação.
Portanto, o ponto principal é que, se você não estiver limitado computacionalmente e se seu modelo não exigir absolutamente recursos discretos, não execute a discretização de recursos. Caso contrário, por todos os meios considere-o.
fonte