Árvore de decisão ou regressão logística?

14

Estou trabalhando em um problema de classificação. Eu tenho um conjunto de dados que contém um número igual de variáveis ​​categóricas e variáveis ​​contínuas. Como vou saber qual técnica usar? entre uma árvore de decisão e uma regressão logística?

É certo assumir que a regressão logística será mais adequada para variáveis ​​contínuas e a árvore de decisão será mais adequada para variáveis ​​contínuas + categóricas?

Uma corrida
fonte
Você pode adicionar mais detalhes como o número de linhas, número de colunas (também quantas categorias / contínuas)?
Nitesh
Oi @ Nitesh, tenho 32 variáveis ​​de entrada + 1 variável de destino. Os registros estão perto de 2,5 lakh para dados de treinamento e dizem cerca de 1 lakh para dados de teste. Os dados de teste estão fora do prazo.
Arun

Respostas:

22

Para encurtar a história : faça o que o @untitledprogrammer disse, tente os dois modelos e faça a validação cruzada para ajudar a escolher um.

As árvores de decisão (dependendo da implementação, por exemplo, C4.5) e a regressão logística devem ser capazes de lidar com dados contínuos e categóricos muito bem. Para a regressão logística, convém codificar suas variáveis ​​categóricas .

Como o @untitledprogrammer mencionou, é difícil saber a priori qual técnica será melhor com base simplesmente nos tipos de recursos que você possui, contínuos ou não. Realmente depende do seu problema específico e dos dados que você possui. (Veja Sem Teorema do Almoço Gratuito )

Você deve ter em mente que um modelo de regressão logística está procurando por um único limite de decisão linear no seu espaço de recurso, enquanto uma árvore de decisão está essencialmente particionando seu espaço de recurso em meios espaços usando limites de decisão linear alinhados ao eixo . O efeito líquido é que você tem um limite de decisão não linear, possivelmente mais de um.

Isso é bom quando seus pontos de dados não são facilmente separados por um único hiperplano, mas, por outro lado, as árvores de decisões são tão flexíveis que podem ser sujeitas a superajustes. Para combater isso, você pode tentar a poda. A regressão logística tende a ser menos suscetível (mas não imune!) Ao sobreajuste.

xyxy

Então você tem que se perguntar:

  • que tipo de limite de decisão faz mais sentido no seu problema específico?
  • como você deseja equilibrar o viés e a variação?
  • existem interações entre meus recursos?

Obviamente, é sempre uma boa idéia apenas experimentar os dois modelos e fazer a validação cruzada. Isso ajudará você a descobrir qual é mais provável que tenha um erro de generalização melhor.

Victor Ma
fonte
Exatamente @Victor.
Untitledprogrammer
@ Victor Muito obrigado por uma explicação muito detalhada.
Arun
6

Tente usar as árvores de regressão e decisão. Compare a eficiência de cada técnica usando uma validação cruzada de 10 vezes. Atenha-se àquele com maior eficiência. Seria difícil julgar qual método seria mais adequado apenas sabendo que seu conjunto de dados é contínuo e / ou categórico.

untitledprogrammer
fonte
1

Realmente depende da estrutura da distribuição subjacente dos seus dados. Se você tiver fortes razões para acreditar que os dados se aproximam de uma distribuição de Bernoulli, a regressão logística multinomial terá um bom desempenho e fornecerá resultados interpretáveis. No entanto, se existirem estruturas não lineares na distribuição subjacente, considere seriamente um método não paramétrico.

Embora você possa usar uma árvore de decisão como seu método não paramétrico, considere também a possibilidade de gerar uma floresta aleatória - isso basicamente gera um grande número de árvores de decisão individuais a partir de subconjuntos de dados e a classificação final é o voto aglomerado de todas as árvores . Uma floresta aleatória ajuda a dar uma idéia do compartilhamento que cada variável preditora contribui para a resposta.

Outro fator a ter em mente é a interpretabilidade. Se você está apenas tentando classificar os dados, provavelmente não se importa com os relacionamentos subjacentes entre as variáveis ​​explicativas e de resposta. No entanto, se você está interessado em interpretabilidade, uma regressão logística multinomial é muito mais fácil de interpretar, métodos paramétricos em geral, porque eles fazem suposições sobre a distribuição subjacente, informando relacionamentos interpretáveis ​​mais intuitivamente.

Theresa Barton
fonte
0

Para usar a Árvore de Decisão, você deve transformar a variável contínua em categórica.

Mais uma coisa, a regressão logística é geralmente usada para prever o resultado de acordo com a probabilidade.

Chong Zheng
fonte