O procedimento de validação cruzada de Monte Carlo é válido?

Eu pensei que a validação cruzada K-fold consiste nas seguintes etapas.

Divida os dados aleatoriamente em pedaços. $K$
Encaixe em pedaços . $K-1$
Prever no pedaço restante. Mantenha previsões.
Repita 2-3 para todas as combinações remanescentes de dos pedaços que omitem 1 pedaço. $K-1$ $K$
Avalie a estatística de perda que compara todas as previsões com valores reais.

Agora eu vi ( xbartno pacote dbarts ) o seguinte procedimento:

Divida os dados aleatoriamente em pedaços. $K$
Encaixe em pedaços . $K-1$
Prever no pedaço restante. Avalie a estatística de perda e mantenha.
Repita 1-3 vezes $N$
Faça a média das estatísticas de perda ou do pool de alguma outra maneira. $N$

Observe a diferença nas etapas 4 e 5.

O primeiro procedimento é padrão e recomendado nos principais livros de texto. O segundo procedimento parece novo. Não vejo imediatamente por que não fazê-lo, mas não parece ótimo em termos de variação. Existem argumentos a favor ou contra o segundo procedimento?

A segunda abordagem é implementada no pacote citado acima e eu me pergunto se isso é errado.

machine-learning cross-validation tomka
fonte

Se a sua perda for definida por observação (eq ao quadrado do erro para uma observação específica), a perda média será a mesma. Pergunto-me então em que situações a perda não é definida por observação, mas é função de todo um pedaço de observação de uma só vez. Talvez erro mediano por pedaço? Então é preciso pensar em como isso difere entre os dois cenários.

Richard Hardy

@RichardHardy Não tenho certeza. Talvez estimativas baseadas em razão, como área sob as estatísticas do ROC (AUC)? Erro médio com certeza.

tomka

@RichardHardy Mesmo no caso simples, o procedimento 1 parece ser o mais eficiente, pois parece que precisa ser grande (como no bootstrap) para controlar a variação da estimativa de perda, exigindo muito mais ajustes no modelo. Ou estou errado em algum lugar?

N

$N$

Tomka

Pense no caso mais simples: perda ao quadrado como a função de perda, 2 dobras e 2 observações por dobra:

(x_{1, 1}, x_{1, 2})

$(x_{1,1},x_{1,2})$ ,

(x_{21,}, x_{2, 2})

$(x_{21,},x_{2,2})$ e os erros de previsão correspondentes

e_{i j}

$e_{ij}$ . Não importa qual procedimento eu uso, pois nos dois casos recebo

MSE = \frac{1}{2} (\frac{1}{2} (e_{1, 1}^{2} + e_{1, 2}^{2}) + \frac{1}{2} (e_{2, 1}^{2} + e_{2, 2}^{2})) = \frac{1}{4} (e_{1, 1}^{2} + e_{1, 2}^{2} + e_{2, 1}^{2} + e_{2, 2}^{2})

$\text{MSE}=\frac{1}{2}(\frac{1}{2}(e_{1,1}^2+e_{1,2}^2)+\frac{1}{2}(e_{2,1}^2+e_{2,2}^2))=\frac{1}{4}(e_{1,1}^2+e_{1,2}^2+e_{2,1}^2+e_{2,2}^2)$ .

Richard Hardy

@tomka 1) Entendo corretamente que a diferença está nos pontos 4 e 5? 2) Quais estatísticas de perda são permitidas xbart? O método certamente está incorreto para o RMSE, que é subaditivo.

Jim

Respostas:

Resposta curta: não é errado nem novo.

Estivemos discutindo esse esquema de validação sob o nome "validação de conjunto" ≈ 15, ao preparar um artigo *, mas no final nunca o referimos de fato, pois não o achamos usado na prática.

Wikipedia refere-se ao mesmo esquema de validação que a validação aleatória repetida de subamostragem ou a validação cruzada de Monte Carlo

Do ponto de vista da teoria, o conceito nos interessava porque

é outra interpretação dos mesmos números geralmente referidos como retenção (apenas o modelo para o qual a estimativa é usada é diferente: estimativas de retenção são usadas como estimativa de desempenho para exatamente o modelo testado, este conjunto ou a validação de Monte Carlo trata o (s) modelo (s) testado (s) como modelo (s) substituto (s) e interpreta o mesmo número que a estimativa de desempenho para um modelo construído em todo o conjunto de dados - como geralmente é feito com estimativas de validação cruzada ou de validação fora da inicialização)
e está algures no meio
- técnicas mais comuns de validação cruzada (reamostragem com substituição, interpretação como estimativa para o modelo de dados completos),
- retenção (veja acima, o mesmo cálculo + números, geralmente sem N iterações / repetições, embora com interpretação diferente)
- e out-of-bootstrap (as N iterações / repetições são típicas do out-bootstrap, mas nunca vi isso aplicado ao hold-out e [infelizmente] raramente é feito com validação cruzada).

* Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Steiner, G .; Salzer, R. & Sowa, MG Redução da variância na estimativa do erro de classificação usando conjuntos de dados esparsos, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
O erro "validação de conjunto" para N = 1 está oculto na fig. 6 (ou seja, seu viés + variação pode ser recuperado dos dados fornecidos, mas não explicitamente).

mas parece não ser ideal em termos de variação. Existem argumentos a favor ou contra o segundo procedimento?

Bem, no artigo acima, encontramos o erro total (viés² + variação) do out-of-bootstrap e repetido / iterado $k$ - a validação cruzada dobrada para ser bem semelhante (com oob tendo uma variação um pouco menor, mas um viés mais alto - mas não fizemos o acompanhamento para verificar se / quanto desse trade-off é devido à reamostragem com / sem substituição e quanto é devido ao proporção de divisão diferente de cerca de 1: 2 para oob).
Lembre-se, no entanto, de que estou falando sobre precisão em situações de tamanho pequeno de amostra, em que o contribuinte dominante na incerteza de variação é o mesmo para todos os esquemas de reamostragem: o número limitado de amostras verdadeiras para teste e o mesmo para oob , validação cruzada ou validação de conjunto. As iterações / repetições permitem reduzir a variação causada pela instabilidade dos modelos (substitutos), mas não a incerteza de variação devido ao tamanho total limitado da amostra.
Portanto, supondo que você execute um número adequadamente grande de iterações / repetições N, eu não esperaria diferenças praticamente relevantes no desempenho desses esquemas de validação.

Um esquema de validação pode se encaixar melhor com o cenário que você tenta simular pela reamostragem.

cbeleites descontentes com o SX
fonte