Estou tentando descobrir se estou interpretando corretamente uma árvore de decisão encontrada online.
A variável dependente dessa árvore de decisão é a Classificação de crédito, que possui duas classes, Ruim ou Bom. A raiz desta árvore contém todas as 2464 observações neste conjunto de dados.
O atributo mais influente para determinar como classificar uma classificação de crédito boa ou ruim é o atributo Nível de renda.
A maioria das pessoas (454 de 553) em nossa amostra, com renda inferior à baixa, também teve uma classificação de crédito ruim. Se eu fosse lançar um cartão de crédito premium sem limite, eu deveria ignorar essas pessoas.
Se eu usasse essa árvore de decisão para previsões para classificar novas observações, o maior número de classes em uma folha é usado como previsão? Por exemplo, a observação x possui renda média, 7 cartões de crédito e 34 anos. A classificação prevista para classificação de crédito = "Bom"
Outra nova observação poderia ser a Observação Y, que possui menos que baixa renda, portanto sua classificação de crédito = "Ruim"
Essa é a maneira correta de interpretar uma árvore de decisão ou eu entendi isso completamente errado?
Respostas:
Deixe-me avaliar cada uma de suas observações uma por uma, para que fique mais claro:
Se
Good, Bad
é isso que você quer dizer com classificação de crédito, então sim . E você está certo com a conclusão de que todas as 2464 observações estão contidas na raiz da árvore.Debatível Depende de como você considera algo influente . Alguns podem argumentar que o número de cartões pode ser o mais influente, e alguns podem concordar com o seu argumento. Então, você está certo e errado aqui.
Sim , mas também seria melhor se você considerar a probabilidade de receber um crédito ruim dessas pessoas. Mas, mesmo isso acabaria sendo NÃO para esta classe, o que tornará sua observação correta novamente.
Depende da probabilidade . Portanto, calcule a probabilidade a partir das folhas e tome uma decisão dependendo disso. Ou muito mais simples, use uma biblioteca como o classificador da árvore de decisão do Sklearn para fazer isso por você.
Novamente, o mesmo que a explicação acima.
Sim , esta é uma maneira correta de interpretar árvores de decisão. Você pode ficar tentado a influenciar a seleção de variáveis influentes , mas isso depende de muitos fatores, incluindo a declaração do problema, a construção da árvore, o julgamento do analista etc.
fonte
Sim, sua interpretação está correta. Cada nível em sua árvore está relacionado a uma das variáveis (esse nem sempre é o caso das árvores de decisão, você pode imaginá-las sendo mais gerais).
X tem renda média, então você vai para o Nó 2 e mais de 7 cartões, para o Nó 5. Agora, você alcançou um nó folha. você vê que em seu conjunto de dados, você tinha 54 pessoas como X, que determinou ter uma classificação Ruim (um humano presumivelmente fez essa classificação com base em outros fatores. E você teve 336 pessoas como X que tiveram uma classificação Boa. Portanto, com base em somente essas informações, você pode dizer que X provavelmente tem uma classificação Bom. Portanto, a árvore de decisão forneceu uma resposta rápida, embora aproximada.
Y tem baixa renda, então você pode olhar imediatamente para a árvore e ir para o nó 1 e dizer que ele provavelmente tem uma classificação ruim, comP( B a d) = 454 / ( 454 + 99 ) ≈ 0,82 .
Em relação ao comentário sobre o atributo "mais influente", isso realmente depende da maneira como a árvore é construída e de qual definição de "influente" você usa. Então, você teria que perguntar à pessoa / software / algoritmo que criou a árvore. É certamente um atributo importante, como você pode ver na própria tabela.
fonte