interpretação do eixo y de uma plotagem de dependência parcial

22

Eu li outros tópicos sobre gráficos de dependência parcial e a maioria deles é sobre como você realmente os plota com pacotes diferentes, não como você pode interpretá-los com precisão. Portanto:

Estive lendo e criando uma boa quantidade de parcelas parciais de dependência. Eu sei que eles medem o efeito marginal de uma variável χs na função ƒS (χS) com o efeito médio de todas as outras variáveis ​​(χc) do meu modelo. Valores y mais altos significam que eles têm uma influência maior na previsão precisa da minha classe. No entanto, não estou satisfeito com esta interpretação qualitativa.

Este link mostra um dos meus muitos gráficos.  http://imgur.com/RXqlOky

Meu modelo (floresta aleatória) está prevendo duas classes discretas. "Sim árvores" e "Sem árvores". TRI é uma variável que provou ser uma boa variável para isso.

O que comecei a pensar é que o valor Y está mostrando uma probabilidade de classificação correta. Exemplo: y (0.2) está mostrando que valores de TRI> ~ 30 têm 20% de chance de identificar corretamente uma classificação de Positivo Verdadeiro.

Onde inversamente

y (-0,2) está mostrando que valores de TRI <~ 15 têm 20% de chance de identificar corretamente uma classificação Negativo Verdadeiro.

Interpretações gerais que são feitas na literatura soariam assim: "Valores maiores que TRI 30 começam a ter uma influência positiva para a classificação em seu modelo" e é isso. Parece tão vago e inútil para um enredo que pode potencialmente falar muito sobre seus dados.

Além disso, todos os meus gráficos limitam o intervalo de -1 a 1 no eixo y. Eu já vi outros gráficos de -10 a 10 etc. Isso é uma função de quantas classes você está tentando prever?

Eu queria saber se alguém pode falar sobre esse problema. Talvez me mostre como devo interpretar esses enredos ou alguma literatura que possa me ajudar. Talvez eu esteja lendo muito sobre isso?

Eu li muito bem os elementos do aprendizado estatístico: mineração de dados, inferência e previsão, e esse foi um ótimo ponto de partida, mas é isso.

JelenaČuklina
fonte
O gráfico mostra, em média, a probabilidade da árvore sim até TRI 30 e aumenta depois disso. Este link explica como interpretar a classificação binária do PDP e os gráficos variáveis ​​contínuos.
LazyNearestNeigbour

Respostas:

13

Cada ponto no gráfico de dependência parcial é a porcentagem média de votos a favor da classe "Sim árvores" em todas as observações, considerando um nível fixo de TRI.

Não é uma probabilidade de classificação correta. Não tem absolutamente nada a ver com precisão, verdadeiros negativos e verdadeiros positivos.

Quando você vê a frase

Valores maiores que TRI 30 começam a influenciar positivamente a classificação em seu modelo

é uma maneira inchada de dizer

Valores maiores que TRI 30 começam a prever "Sim árvores" mais fortemente que valores menores que TRI 30

shadowtalker
fonte
2

A função de dependência parcial basicamente fornece a tendência "média" dessa variável (integrando todas as outras no modelo). É a forma dessa tendência que é "importante". Você pode interpretar o intervalo relativo desses gráficos a partir de diferentes variáveis ​​preditivas, mas não o intervalo absoluto. Espero que ajude.

thiakx
fonte
2

Uma maneira de observar os valores do eixo y é que eles são relativos entre si nos outros gráficos. Quando esse número é maior do que nos outros gráficos em valores absolutos, isso significa que é mais importante porque o impacto dessa variável na saída é maior.

Se você está interessado na matemática por trás dos gráficos de dependência parcial e em como esse número é estimado, você pode encontrá-lo aqui: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf seção 8.1

user3386377
fonte