Atualmente, estou usando SVM e dimensionando meus recursos de treinamento para o intervalo de [0,1]. Primeiro ajustei / transformei meu conjunto de treinamento e depois apliquei a mesma transformação ao meu conjunto de testes. Por exemplo:
### Configure transformation and apply to training set
min_max_scaler = MinMaxScaler(feature_range=(0, 1))
X_train = min_max_scaler.fit_transform(X_train)
### Perform transformation on testing set
X_test = min_max_scaler.transform(X_test)
Suponhamos que um determinado recurso no conjunto de treinamento tenha um intervalo de [0,100] e que o mesmo recurso no conjunto de testes tenha um intervalo de [-10,120]. No conjunto de treinamento, esse recurso será dimensionado adequadamente para [0,1], enquanto no conjunto de testes esse recurso será dimensionado para um intervalo fora do especificado primeiro, algo como [-0,1,1.2].
Fiquei me perguntando o que as conseqüências dos recursos do conjunto de testes estão fora do alcance daqueles usados para treinar o modelo? Isso é um problema?
fonte
MinMaxScaler
.