Então, eu tenho brincado com SVMs e me pergunto se isso é uma boa coisa a fazer:
Eu tenho um conjunto de recursos contínuos (0 a 1) e um conjunto de recursos categóricos que converti em variáveis fictícias. Nesse caso em particular, codifico a data da medição em uma variável dummy:
Existem 3 períodos nos quais tenho dados e reservei 3 números de recursos para eles:
20: 21: 22:
Portanto, dependendo do período de origem dos dados, diferentes recursos receberão 1; os outros receberão 0.
O SVM funcionará corretamente com isso ou isso é uma coisa ruim a ser feita?
Eu uso o SVMLight e um kernel linear.
Respostas:
Os SVMs manipularão variáveis binárias e contínuas, desde que você faça algum pré-processamento: todos os recursos devem ser dimensionados ou normalizados. Após essa etapa, da perspectiva dos algoritmos, não importa se os recursos são contínuos ou binários: para os binários, ele vê amostras "distantes" ou muito semelhantes; para contínuo, há também os valores intermediários. O kernel não importa em relação ao tipo de variáveis.
fonte
Replicando minha resposta de http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1
fonte