Esta questão poderia ir aqui ou no SO, talvez ...
Suponha que seu conjunto de dados de treinamento contenha dados categóricos e contínuos, como esta configuração:
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
E a variável dependente a ser prevista é o custo anual do veterinário. Estou um pouco confuso quanto às técnicas específicas disponíveis para lidar com esse conjunto de dados. Quais são os métodos comumente usados para lidar com conjuntos de dados que são uma mistura de dados contínuos e categóricos?
fonte
Você deve dar uma olhada no pré-processamento de dados . É anterior a qualquer técnica de aprendizado de máquina. Aqui está uma boa introdução (encontrada no Google).
Em relação às técnicas, existem muitas abordagens diferentes . Provavelmente você pode usar a maioria deles após pré-processar seus dados. Você deve experimentá-los e escolher o que melhor se adapta às suas necessidades.
fonte