Como encontrar e avaliar a discretização ideal para a variável contínua com o critério

9

Eu tenho um conjunto de dados com variável contínua e uma variável de destino binário (0 e 1).

Preciso discretizar as variáveis ​​contínuas (para regressão logística) com relação à variável alvo e com a restrição de que a frequência de observação em cada intervalo seja equilibrada. Tentei algoritmos de aprendizado de máquina como Chi Merge, árvores de decisão. A mesclagem de Chi me deu intervalos com números muito desequilibrados em cada intervalo (um intervalo com 3 observações e outro com 1000). As árvores de decisão eram difíceis de interpretar.

Cheguei à conclusão de que uma discretização ideal deve maximizar a estatística entre a variável discretizada e a variável alvo e deve ter intervalos contendo aproximadamente a mesma quantidade de observações.χ2

Existe um algoritmo para resolver isso?

É assim que pode parecer em R (def é a variável alvo ex x a variável a ser discretizada). Calculei o de Tschuprow para avaliar a "correlação" entre a variável transformada e a variável alvo, porque as estatísticas do χ 2 tendem a aumentar com o número de intervalos. Não tenho certeza se esse é o caminho certo.Tχ2

T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}
Charlotte
fonte
2
Você talvez saiba disso; mas, para constar, (1) não é necessário nem, muitas vezes, desejável discretizar preditores para regressão logística, e (2) usar a resposta para definir os preditores introduz um viés otimista na estimativa do desempenho preditivo do seu modelo, e é Portanto, é importante validar todo o procedimento de ajuste (ou seja, incluindo o método usado para formar os preditores).
Scortchi - Restabelece Monica
Ok, como posso validar a discretização, como isso funciona?
Charlotte
Se você estiver usando, por exemplo, validação cruzada, em cada dobra, você não apenas realiza a regressão logística usando a discretização "ideal" dos preditores determinados a partir de toda a amostra, mas recalcula a discretização "ideal" também.
Scortchi - Restabelece Monica

Respostas:

8

Existem muitas maneiras possíveis de discretizar uma variável contínua: veja [Garcia 2013]

Na página 739, pude ver pelo menos 5 métodos baseados no qui-quadrado. A otimização da discretização é realmente dependente da tarefa na qual você deseja usar a variável discretizada. No seu caso, regressão logística. E, como discutido em Garcia2013, encontrar a discretização ideal dada uma tarefa é NP-completo.

Existem muitas heurísticas. Neste artigo eles discutem pelo menos 50 deles. Dado meu histórico de aprendizado de máquina (acho que as pessoas em estatística preferem outras coisas), sou frequentemente inclinado para o método Comprimento Mínimo de Descrição (MDL) de Fayyad e Irani. Vejo que está disponível na discretização do pacote R

Como você disse, o qui-quadrado é tendencioso em relação ao alto número de intervalos e muitas outras estatísticas (como o ganho de informação usado no método MDL). No entanto, o MDL tenta encontrar um bom compromisso entre o ganho de informações da variável discretizada e a classe e a complexidade (número de intervalos) da variável discretizada. De uma chance.

Simone
fonte
Seu link do Garcia 2013 parece estar quebrado ... você se importaria de postar mais detalhes sobre este artigo ou vincular novamente?
Kiran K.
2
@KiranK. Obrigado por me avisar. Eu consertei o link.
Simone