Todas as dimensões dos meus recursos têm diferentes valores. Quero saber se é essencial normalizar esse conjunto de dados.
fonte
Todas as dimensões dos meus recursos têm diferentes valores. Quero saber se é essencial normalizar esse conjunto de dados.
A resposta para sua pergunta depende de qual função de similaridade / distância você planeja usar (em SVMs). Se for uma distância euclidiana simples (não ponderada), se você não normalizar seus dados, estará inconscientemente dando a alguns recursos mais importância que outros.
Por exemplo, se sua primeira dimensão varia de 0 a 10 e a segunda dimensão de 0 a 1, uma diferença de 1 na primeira dimensão (apenas um décimo do intervalo) contribui tanto na computação à distância quanto dois valores totalmente diferentes em a segunda dimensão (0 e 1). Então, ao fazer isso, você está exagerando pequenas diferenças na primeira dimensão. Obviamente, você poderia criar uma função de distância personalizada ou ponderar suas dimensões pela estimativa de um especialista, mas isso levará a muitos parâmetros ajustáveis, dependendo da dimensionalidade dos seus dados. Nesse caso, a normalização é um caminho mais fácil (embora não necessariamente ideal), porque você pode pelo menos começar.
Finalmente, ainda para SVMs, outra coisa que você pode fazer é criar uma função de similaridade em vez de uma função de distância e conectá-la como um kernel (tecnicamente essa função deve gerar matrizes definidas positivamente). Essa função pode ser construída da maneira que você quiser e pode levar em consideração a disparidade nos intervalos de recursos.
Para florestas aleatórias, por outro lado, como um recurso nunca é comparado em magnitude a outros, os intervalos não importam. É apenas o intervalo de um recurso dividido em cada estágio.
A floresta aleatória é invariável a transformações monotônicas de características individuais. As traduções ou as reduções por recurso não mudarão nada para a Floresta Aleatória. O SVM provavelmente terá um desempenho melhor se seus recursos tiverem aproximadamente a mesma magnitude, a menos que você saiba a priori que algum recurso é muito mais importante que outros; nesse caso, não há problema em ter uma magnitude maior.