O procedimento de validação cruzada de Monte Carlo é válido?

7

Eu pensei que a validação cruzada K-fold consiste nas seguintes etapas.

  1. Divida os dados aleatoriamente em pedaços.K
  2. Encaixe em pedaços .K-1 1
  3. Prever no pedaço restante. Mantenha previsões.
  4. Repita 2-3 para todas as combinações remanescentes de dos pedaços que omitem 1 pedaço.K-1 1K
  5. Avalie a estatística de perda que compara todas as previsões com valores reais.

Agora eu vi ( xbartno pacote dbarts ) o seguinte procedimento:

  1. Divida os dados aleatoriamente em pedaços.K
  2. Encaixe em pedaços .K-1 1
  3. Prever no pedaço restante. Avalie a estatística de perda e mantenha.
  4. Repita 1-3 vezesN
  5. Faça a média das estatísticas de perda ou do pool de alguma outra maneira.N

Observe a diferença nas etapas 4 e 5.

O primeiro procedimento é padrão e recomendado nos principais livros de texto. O segundo procedimento parece novo. Não vejo imediatamente por que não fazê-lo, mas não parece ótimo em termos de variação. Existem argumentos a favor ou contra o segundo procedimento?

A segunda abordagem é implementada no pacote citado acima e eu me pergunto se isso é errado.

tomka
fonte
2
Se a sua perda for definida por observação (eq ao quadrado do erro para uma observação específica), a perda média será a mesma. Pergunto-me então em que situações a perda não é definida por observação, mas é função de todo um pedaço de observação de uma só vez. Talvez erro mediano por pedaço? Então é preciso pensar em como isso difere entre os dois cenários.
Richard Hardy
11
@RichardHardy Não tenho certeza. Talvez estimativas baseadas em razão, como área sob as estatísticas do ROC (AUC)? Erro médio com certeza.
tomka
@RichardHardy Mesmo no caso simples, o procedimento 1 parece ser o mais eficiente, pois parece que precisa ser grande (como no bootstrap) para controlar a variação da estimativa de perda, exigindo muito mais ajustes no modelo. Ou estou errado em algum lugar? N
Tomka
Pense no caso mais simples: perda ao quadrado como a função de perda, 2 dobras e 2 observações por dobra: (x1 1,1 1,x1 1,2), (x21,,x2,2) e os erros de previsão correspondentes eEuj. Não importa qual procedimento eu uso, pois nos dois casos receboMSE=1 12(1 12(e1 1,1 12+e1 1,22)+1 12(e2,1 12+e2,22))=1 14(e1 1,1 12+e1 1,22+e2,1 12+e2,22).
Richard Hardy
@tomka 1) Entendo corretamente que a diferença está nos pontos 4 e 5? 2) Quais estatísticas de perda são permitidas xbart? O método certamente está incorreto para o RMSE, que é subaditivo.
Jim

Respostas:

5

Resposta curta: não é errado nem novo.


Estivemos discutindo esse esquema de validação sob o nome "validação de conjunto" ≈ 15, ao preparar um artigo *, mas no final nunca o referimos de fato, pois não o achamos usado na prática.

Wikipedia refere-se ao mesmo esquema de validação que a validação aleatória repetida de subamostragem ou a validação cruzada de Monte Carlo

Do ponto de vista da teoria, o conceito nos interessava porque

  • é outra interpretação dos mesmos números geralmente referidos como retenção (apenas o modelo para o qual a estimativa é usada é diferente: estimativas de retenção são usadas como estimativa de desempenho para exatamente o modelo testado, este conjunto ou a validação de Monte Carlo trata o (s) modelo (s) testado (s) como modelo (s) substituto (s) e interpreta o mesmo número que a estimativa de desempenho para um modelo construído em todo o conjunto de dados - como geralmente é feito com estimativas de validação cruzada ou de validação fora da inicialização)
  • e está algures no meio
    • técnicas mais comuns de validação cruzada (reamostragem com substituição, interpretação como estimativa para o modelo de dados completos),
    • retenção (veja acima, o mesmo cálculo + números, geralmente sem N iterações / repetições, embora com interpretação diferente)
    • e out-of-bootstrap (as N iterações / repetições são típicas do out-bootstrap, mas nunca vi isso aplicado ao hold-out e [infelizmente] raramente é feito com validação cruzada).

* Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Steiner, G .; Salzer, R. & Sowa, MG Redução da variância na estimativa do erro de classificação usando conjuntos de dados esparsos, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
O erro "validação de conjunto" para N = 1 está oculto na fig. 6 (ou seja, seu viés + variação pode ser recuperado dos dados fornecidos, mas não explicitamente).


mas parece não ser ideal em termos de variação. Existem argumentos a favor ou contra o segundo procedimento?

Bem, no artigo acima, encontramos o erro total (viés² + variação) do out-of-bootstrap e repetido / iterado k- a validação cruzada dobrada para ser bem semelhante (com oob tendo uma variação um pouco menor, mas um viés mais alto - mas não fizemos o acompanhamento para verificar se / quanto desse trade-off é devido à reamostragem com / sem substituição e quanto é devido ao proporção de divisão diferente de cerca de 1: 2 para oob).
Lembre-se, no entanto, de que estou falando sobre precisão em situações de tamanho pequeno de amostra, em que o contribuinte dominante na incerteza de variação é o mesmo para todos os esquemas de reamostragem: o número limitado de amostras verdadeiras para teste e o mesmo para oob , validação cruzada ou validação de conjunto. As iterações / repetições permitem reduzir a variação causada pela instabilidade dos modelos (substitutos), mas não a incerteza de variação devido ao tamanho total limitado da amostra.
Portanto, supondo que você execute um número adequadamente grande de iterações / repetições N, eu não esperaria diferenças praticamente relevantes no desempenho desses esquemas de validação.

Um esquema de validação pode se encaixar melhor com o cenário que você tenta simular pela reamostragem.

cbeleites descontentes com o SX
fonte