Noções básicas sobre validação cruzada estratificada

55

Qual é a diferença entre validação cruzada estratificada e validação cruzada ?

A Wikipedia diz:

Na validação cruzada estratificada de dobras k , as dobras são selecionadas para que o valor médio da resposta seja aproximadamente igual em todas as dobras. No caso de uma classificação dicotômica, isso significa que cada dobra contém aproximadamente as mesmas proporções dos dois tipos de rótulos de classe.

Mas ainda estou confuso.

  1. O que mean response valuesignifica neste contexto?
  2. Por que o nº 1 é importante?
  3. Como alguém alcança o número 1 na prática?
Amelio Vazquez-Reina
fonte

Respostas:

43

O artigo de validação cruzada da Encyclopedia of Database Systems diz:

Estratificação é o processo de reorganizar os dados para garantir que cada dobra seja um bom representante do todo. Por exemplo, em um problema de classificação binária em que cada classe compreende 50% dos dados, é melhor organizar os dados de modo que, em cada dobra, cada classe compreenda cerca de metade das instâncias.

Sobre a importância da estratificação, Kohavi (Um estudo de validação cruzada e autoinicialização para estimativa de precisão e seleção de modelos) conclui que:

a estratificação é geralmente um esquema melhor, tanto em termos de viés quanto de variância, quando comparado à validação cruzada regular.

Baumann
fonte
5
Você pode descrever, intuitivamente, por que é melhor que um currículo regular?
MohamedEzz
Talvez inclua um parágrafo que exista diferentes graus de estratificação que você possa buscar e que eles interfiram em diferentes graus com a aleatoriedade das dobras. Às vezes, tudo o que você precisa é garantir que haja pelo menos um registro de arte de cada classe em cada dobra. Em seguida, você pode gerar as dobras aleatoriamente, verificar se essa condição é atendida e somente no caso improvável de não ser atendido reorganize as dobras.
David Ernst
37

A estratificação procura garantir que cada dobra seja representativa de todos os estratos dos dados. Geralmente, isso é feito de maneira supervisionada para classificação e visa garantir que cada classe seja (aproximadamente) igualmente representada em cada dobra de teste (que é obviamente combinada de maneira complementar para formar dobras de treinamento).

A intuição por trás disso está relacionada ao viés da maioria dos algoritmos de classificação. Eles tendem a ponderar cada instância igualmente, o que significa que classes super-representadas ganham muito peso (por exemplo, otimização da medida F, precisão ou uma forma complementar de erro). A estratificação não é tão importante para um algoritmo que pesa cada classe igualmente (por exemplo, otimizando Kappa, Informedness ou ROC AUC) ou de acordo com uma matriz de custos (por exemplo, que está atribuindo um valor a cada classe corretamente ponderado e / ou um custo para cada maneira de classificação incorreta). Veja, por exemplo, DMW Powers (2014), O que a medida F não mede: Recursos, falhas, falácias e correções. http://arxiv.org/pdf/1503.06410

Uma questão específica que é importante em algoritmos imparciais ou equilibrados é que eles tendem a não ser capazes de aprender ou testar uma classe que não é representada de maneira alguma e, além disso, mesmo o caso em que apenas uma de uma classe é representado em uma dobra não permite que a generalização execute resp. avaliados. No entanto, mesmo essa consideração não é universal e, por exemplo, não se aplica tanto ao aprendizado em uma classe, que tenta determinar o que é normal para uma classe individual e identifica efetivamente os outliers como sendo uma classe diferente, considerando que a validação cruzada trata-se de determinar estatísticas que não geram um classificador específico.

Por outro lado, a estratificação supervisionada compromete a pureza técnica da avaliação, pois os rótulos dos dados de teste não devem afetar o treinamento, mas na estratificação são utilizados na seleção das instâncias de treinamento. A estratificação não supervisionada também é possível com base na disseminação de dados semelhantes, observando apenas os atributos dos dados, não a classe real. Ver, por exemplo, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), estratificação não supervisionada de validação cruzada para estimativa de precisão.

A estratificação também pode ser aplicada à regressão, e não à classificação. Nesse caso, como a estratificação não supervisionada, a similaridade ao invés da identidade é usada, mas a versão supervisionada usa o valor verdadeiro da função conhecida.

Complicações adicionais são classes raras e classificação de vários rótulos, onde classificações estão sendo feitas em múltiplas dimensões (independentes). Aqui, tuplas dos rótulos verdadeiros em todas as dimensões podem ser tratadas como classes com a finalidade de validação cruzada. No entanto, nem todas as combinações ocorrem necessariamente, e algumas combinações podem ser raras. Classes raras e combinações raras são um problema, pois uma classe / combinação que ocorre pelo menos uma vez, mas menos de K vezes (em K-CV) não pode ser representada em todas as dobras de teste. Nesses casos, pode-se considerar uma forma de boostrapping estratificado (amostragem com substituição para gerar uma dobra de treinamento em tamanho real com repetições esperadas e 36,8% esperadas não selecionadas para teste, com uma instância de cada classe selecionada inicialmente sem substituição para a dobra de teste) .

Outra abordagem para a estratificação de vários rótulos é tentar estratificar ou inicializar cada dimensão de classe separadamente, sem procurar garantir a seleção representativa de combinações. Com rótulos L e instâncias N e instâncias Kkl da classe k para o rótulo l, podemos escolher aleatoriamente (sem substituição) o conjunto correspondente de instâncias rotuladas Dkl aproximadamente instâncias N / LKkl. Isso não garante o equilíbrio ideal, mas sim o equilíbrio heuristicamente. Isso pode ser melhorado com a restrição da seleção de rótulos na cota ou acima dela, a menos que não haja escolha (pois algumas combinações não ocorrem ou são raras). Problemas tendem a significar que existem poucos dados ou que as dimensões não são independentes.

David MW Powers
fonte
5

O valor médio da resposta é aproximadamente igual em todas as dobras, é outra maneira de dizer que a proporção de cada classe em todas as dobras é aproximadamente igual.

Por exemplo, temos um conjunto de dados com 80 registros da classe 0 e 20 registros da classe 1. Podemos obter um valor médio de resposta de (80 * 0 + 20 * 1) / 100 = 0,2 e queremos que 0,2 seja o valor médio de resposta de todas as dobras. Essa também é uma maneira rápida na EDA de medir se o conjunto de dados fornecido está desequilibrado em vez de contar.

Lucy Lu
fonte