Eu tenho um conjunto de dados binários altamente tendencioso - tenho 1000x mais exemplos da classe negativa do que a classe positiva. Gostaria de treinar um conjunto de árvores (como árvores aleatórias extras ou uma floresta aleatória) nesses dados, mas é difícil criar conjuntos de dados de treinamento que contenham exemplos suficientes da classe positiva.
Quais seriam as implicações de se fazer uma abordagem de amostragem estratificada para normalizar o número de exemplos positivos e negativos? Em outras palavras, é uma má idéia, por exemplo, aumentar artificialmente (por reamostragem) o número de exemplos positivos de classe no conjunto de treinamento?