Disseram-me que é benéfico usar a validação cruzada estratificada, especialmente quando as classes de resposta são desequilibradas. Se um objetivo da validação cruzada é ajudar a explicar a aleatoriedade da nossa amostra de dados de treinamento original, certamente fazer com que cada dobra tenha a mesma distribuição de classe funcionaria contra isso, a menos que você tivesse certeza de que seu conjunto de treinamento original tinha uma distribuição representativa de classe.
Minha lógica é falha?
EDIT Estou interessado em saber se esse método danifica o bem do CV. Percebo por que é necessário ter uma amostra pequena / classes muito desequilibradas / ambas para evitar não ter um único representante da classe menor em uma dobra.
O artigo Maçãs a Maçãs em estudos de validação cruzada: armadilhas na medição de desempenho do classificador apresenta bem o caso da estratificação, mas todos os argumentos parecem equivaler a 'A estratificação fornece uma salvaguarda e mais consistência', mas nenhuma salvaguarda seria necessária, dado o suficiente dados.
A resposta é simplesmente "Nós o usamos por necessidade, pois raramente temos dados suficientes". ?
fonte
Talvez você possa pensar dessa maneira. Digamos que você tenha um conjunto de dados em que haja 100 amostras, 90 na classe 'A' e 10 na classe 'B'. Nesse projeto muito desequilibrado, se você criar grupos aleatórios normais, poderá criar modelos em muito poucos (ou até NENHUM!) Da classe 'B'. Se você está construindo um modelo que é treinado em dados em que há tão poucos, ou mesmo nenhum, da outra classe, como você espera que ele preveja efetivamente o grupo mais raro? A validação cruzada estratificada permite a randomização, mas também garante que esses conjuntos de dados desequilibrados possuam algumas das duas classes.
Para pacificar as preocupações sobre o uso de CV estratificado com conjuntos de dados mais 'equilibrados', vejamos um exemplo usando o código R.
Como você pode ver, em um conjunto de dados bem equilibrado, as dobras terão uma distribuição semelhante por acaso. Portanto, o CV estratificado é simplesmente uma medida de garantia nessas circunstâncias. No entanto, para lidar com a variação, é necessário examinar as distribuições de cada dobra. Em algumas circunstâncias (mesmo começando de 50 a 50), você pode ter dobras com divisões de 30 a 70 por acaso (você pode executar o código acima e ver isso realmente acontecendo!). Isso pode levar a um modelo com pior desempenho, pois não possui classe suficiente para prever com precisão, aumentando assim a variação geral do CV. Obviamente, isso é mais importante quando você tem amostras "limitadas", nas quais é mais provável que haja diferenças muito extremas na distribuição.
Agora, com conjuntos de dados muito grandes, a estratificação pode não ser necessária porque as dobras serão grandes o suficiente para provavelmente ainda conter pelo menos uma boa proporção da classe 'mais rara'. No entanto, não há realmente perda computacional e nenhuma razão real para renunciar à estratificação se suas amostras estiverem desequilibradas não importa quantos dados você tenha na minha opinião pessoal.
fonte
stratifcation is generally a better scheme, both in terms of bias and variance, when compared to regular cross-validation
. Não existe um esquema de amostragem perfeito, mas em projetos desequilibrados, a estratificação é uma boa abordagem.