A página do Scikit Learn na seleção de modelos menciona o uso de validação cruzada aninhada:
>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits)
Dois loops de validação cruzada são executados em paralelo: um pelo estimador GridSearchCV para definir gama e outro pelo cross_val_score para medir o desempenho da previsão do estimador. As pontuações resultantes são estimativas imparciais da pontuação de previsão em novos dados.
Pelo que entendi, clf.fit
utilizarei a validação cruzada nativamente para determinar a melhor gama. Nesse caso, por que precisaríamos usar o cv aninhado como indicado acima? A nota menciona que a cv aninhada produz "estimativas imparciais" da pontuação da previsão. Não é esse também o caso clf.fit
?
Além disso, não consegui obter as melhores estimativas do clf com o cross_validation.cross_val_score(clf, X_digits, y_digits)
procedimento. Poderia aconselhar como isso pode ser feito?