Eu tenho um conjunto de dados com 20000 amostras, cada uma com 12 recursos diferentes. Cada amostra está na categoria 0 ou 1. Quero treinar uma rede neural e uma floresta de decisão para categorizar as amostras para que eu possa comparar os resultados e as duas técnicas.
A primeira coisa que me deparei com a normalização adequada dos dados. Um recurso está no intervalo , outro em [ 30 , 40 ] e há um recurso que geralmente assume o valor 8 e às vezes 7. Então, como eu leio em diferentes fontes, normalização adequada dos dados de entrada é crucial para redes neurais. Como descobri, existem muitas maneiras possíveis de normalizar os dados, por exemplo:
- Normalização mínima e máxima : o intervalo de entrada é transformado linearmente no intervalo (ou alternativamente [ - 1 , 1 ] , isso importa?)
- Normalização do escore Z : os dados são transformados para ter média zero e variação unitária:
Qual normalização devo escolher? A normalização também é necessária para florestas de decisão? Com a normalização do Z-Score, os diferentes recursos dos meus dados de teste não estão no mesmo intervalo. Isso pode ser um problema? Todos os recursos devem normalizar com o mesmo algoritmo, para que eu decida usar o Min-Max para todos os recursos ou o Z-Score para todos os recursos?
Existem combinações em que os dados são mapeados para e também possuem média zero (o que implicaria uma transformação não linear dos dados e, portanto, uma alteração na variação e outras características dos dados de entrada).
Sinto-me um pouco perdido porque não consigo encontrar referências que respondam a essas perguntas.
fonte