Significado do eixo y no gráfico de dependência parcial de floresta aleatória

11

Estou usando o RandomForestpacote R e estou confuso sobre como interpretar os valores do eixo Y em seus gráficos de dependência parcial. Os documentos da Ajuda afirmam que o gráfico é uma "representação gráfica do efeito marginal de uma variável na probabilidade de classe". No entanto, ainda estou confuso quanto ao que exatamente o eixo y representa.

  • Particularmente, o que significam os valores negativos?
  • O que significa ter uma influência negativa na previsão precisa da classe?
  • E qual é a característica mais importante desses números, é o valor máximo, a forma da tendência, etc.?
  • Você pode comparar parcelas parciais com parcelas parciais de outras variáveis?
  • Como esses gráficos podem ser comparados com as curvas de resposta criadas no Maxent (um software de modelagem de distribuição)?

Alguns exemplos de parcelas de dependência parcial

jacobsap
fonte

Respostas:

7

Respondendo a esses dois primeiro:

Particularmente, o que significam os valores negativos? O que significa ter uma influência negativa na previsão precisa da classe?

Se você observar a definição de como o gráfico parcial é calculado na documentação do pacote Random Forest , diz-se que os gráficos mostram a contribuição relativa do logit da variável na probabilidade de classe da perspectiva do modelo. Em outras palavras, valores negativos (no eixo y) significam que a classe positiva é menos provável para esse valor da variável independente (eixo x) de acordo com o modelo. Da mesma forma, valores positivos significam que a classe positiva é mais provável para esse valor da variável independente de acordo com o modelo. Claramente, zero não implica impacto médio na probabilidade de classe de acordo com o modelo.

E qual é a característica mais importante desses números, é o valor máximo, a forma da tendência, etc.?

Existem muitas abordagens diferentes para determinar a importância do recurso e o valor absoluto máximo é apenas uma medida simples. Normalmente, as pessoas observam a forma dos gráficos parciais para obter entendimento sobre o que o modelo está sugerindo sobre o relacionamento entre variáveis ​​e rótulos de classe.

Você pode comparar parcelas parciais com parcelas parciais de outras variáveis?

A resposta para isso é menos preto e branco. Você pode observar com precisão o intervalo do eixo y para cada plotagem; Se a dependência parcial de uma variável for próxima de zero para todo o intervalo da variável, isso informa que o modelo não possui nenhum relacionamento da variável com o rótulo da classe. Voltando à sua pergunta, quanto maior o alcance, mais forte será a influência geral, para que, nesse sentido, eles possam ser comparados.

Não tenho experiência com Maxent.

Chris A.
fonte
Digamos que o modelo seja para classificação de 2 classes, como determinar qual classe é positiva e qual é negativa?
precisa saber é o seguinte
Essa é uma boa pergunta, você terá que experimentar e ver. A documentação diz na página 17 aqui que, se yé um fator, assume que é um problema de classificação. No entanto, ele não diz qual fator será mapeado para a classe positiva ou negativa. Espero que 1 ou verdadeiro é mapeado para a classe positiva e 0, -1, ou falso é mapeado para a classe negativa, mas eu não iria tomar isso como garantido na R.
Chris A.
existe um which.classargumento partialPlote o padrão é o primeiro nível de fator y. Portanto, se o primeiro nível de yfor o caso negativo, partialPlotestará prevendo os casos negativos, o que pode não ser o que se espera.
Qdeleth