Benefícios da amostragem estratificada vs aleatória para gerar dados de treinamento na classificação

20

Gostaria de saber se existem / algumas vantagens em usar amostragem estratificada em vez de aleatória, ao dividir o conjunto de dados original em conjunto de treinamento e teste para classificação.

Além disso, a amostragem estratificada introduz mais viés no classificador do que a amostragem aleatória?

O aplicativo, para o qual eu gostaria de usar amostragem estratificada para preparação de dados, é um classificador Random Forests, treinado em 23 do conjunto de dados original. Antes do classificador, há também uma etapa de geração de amostra sintética (SMOTE [1]) que equilibra o tamanho das classes.

[1] Chawla, Nitesh V., et al. " SMOTE: técnica de sobre-amostragem de minoria sintética. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

gc5
fonte

Respostas:

20

A amostragem estratificada visa dividir um conjunto de dados para que cada divisão seja semelhante em relação a alguma coisa.

Em uma configuração de classificação, geralmente é escolhido para garantir que os conjuntos de trem e teste tenham aproximadamente a mesma porcentagem de amostras de cada classe de destino que o conjunto completo.

Como resultado, se o conjunto de dados possui uma grande quantidade de cada classe, a amostragem estratificada é praticamente a mesma que a amostragem aleatória. Porém, se uma classe não estiver muito representada no conjunto de dados, o que pode ser o caso no seu conjunto de dados, pois você planeja superexaminar a classe minoritária, a amostragem estratificada pode gerar uma distribuição de classe-alvo diferente nos conjuntos de trem e teste do que aleatória amostragem pode render.

Observe que a amostragem estratificada também pode ser projetada para distribuir igualmente alguns recursos nos próximos conjuntos de trens e testes. Por exemplo, se cada amostra representa um indivíduo e um recurso é a idade, às vezes é útil ter a mesma distribuição etária no trem e no conjunto de testes.

PARA SUA INFORMAÇÃO:

Franck Dernoncourt
fonte