Eu uso o Python para executar um modelo de floresta aleatório no meu conjunto de dados desequilibrado (a variável de destino era uma classe binária). Ao dividir o conjunto de dados de treinamento e teste, lutei para usar a amostragem estratificada (como o código mostrado) ou não. Até agora, observei em meu projeto que o caso estratificado levaria a um desempenho mais alto do modelo. Mas acho que se vou usar meu modelo para prever os novos casos que provavelmente diferem muito na distribuição da classe de destino com meu conjunto de dados atual. Então, inclinei-me a afrouxar essa restrição e usar a divisão não estratificada. Alguém poderia aconselhar para esclarecer esse ponto?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)