Faça uma pergunta ao estatístico e a resposta será alguma forma de "depende".
Depende . Além do tipo de modelo (cbeleites de bom ponto!), O número de pontos de ajuste de treinamento e o número de preditores? Se o modelo é para classificação, um grande desequilíbrio de classe me faria aumentar o número de repetições. Além disso, se estiver realizando uma nova amostragem de um procedimento de seleção de recurso, eu me inclino para mais reamostragens.
Para qualquer método de reamostragem usado nesse contexto, lembre-se de que (ao contrário do bootstrapping clássico), você só precisa de iterações suficientes para obter uma estimativa "precisa o suficiente" da média da distribuição. Isso é subjetivo, mas qualquer resposta será.
Seguindo a classificação com duas classes por um segundo, suponha que você espere / espere que a precisão do modelo seja de cerca de 0,80. Como o processo de reamostragem está amostrando a estimativa de precisão (digamos p
), o erro padrão seria sqrt[p*(1-p)]/sqrt(B)
onde B
está o número de reamostragens. Pois B = 10
, o erro padrão da precisão é de cerca de 0,13 e com B = 100
ela é de cerca de 0,04. Você pode usar essa fórmula como um guia geral para esse caso em particular.
Considere também que, neste exemplo, a variação da precisão é maximizada quanto mais próximo você chega de 0,50, para que um modelo preciso precise de menos repetições, pois o erro padrão deve ser menor do que os modelos que são alunos fracos.
HTH,
Máx.