Árvores de decisão dimensionamento variável (recurso) e normalização variável (ajuste) necessários em quais implementações?

10

Em muitos algoritmos de aprendizado de máquina, dimensionamento recurso (aka variável de escala, normalização) é um comum prepocessing passo Wikipedia - função Dimensionamento - esta questão estava perto Pergunta # 41704 - Como e por que a normalização e operação de referência de escala?

Eu tenho duas perguntas especificamente em relação às árvores de decisão:

  1. Existem implementações em árvore de decisão que exijam dimensionamento de recursos? Tenho a impressão de que os critérios de divisão da maioria dos algoritmos são indiferentes à escala.
  2. Considere estas variáveis: (1) Unidades, (2) Horas, (3) Unidades por Hora - é melhor deixar essas três variáveis ​​"como estão" quando inseridas em uma árvore de decisão ou enfrentamos algum tipo de conflito uma vez que a variável "normalizada" (3) é relacionada a (1) e (2)? Ou seja, você atacaria essa situação jogando todas as três variáveis ​​na mistura ou normalmente escolheria alguma combinação das três ou simplesmente usaria o recurso "normalizado / padronizado" (3)?
JasonAizkalns
fonte

Respostas:

6

Para 1, as árvores de decisão em geral geralmente não requerem escala. No entanto, ajuda na visualização / manipulação de dados e pode ser útil se você pretende comparar o desempenho com outros dados ou outros métodos como o SVM.

Para 2, essa é uma questão de ajuste. Unidades / hora podem ser consideradas um tipo de interação variável e podem ter poder preditivo diferente de cada um. Isso realmente depende dos seus dados, no entanto. Eu tentaria com e sem para ver se há uma diferença.

wwwslinger
fonte