83

Como os diferentes métodos de validação cruzada se comparam em termos de variação e tendência do modelo?

Minha pergunta é parcialmente motivada por este tópico: Número ideal de dobras na validação cruzada fold : o CV de deixar um fora é sempre a melhor escolha? $K$ . A resposta sugere que os modelos aprendidos com a validação cruzada de exclusão única têm maior variação do que os aprendidos com a validação cruzada regular com fold, tornando o CV de exclusão única uma opção pior. $K$

No entanto, minha intuição me diz que no CV individual, deve-se observar uma variação relativamente menor entre os modelos do que no CV fold, já que estamos apenas trocando um ponto de dados entre as dobras e, portanto, os conjuntos de treinamento entre as dobras se sobrepõem substancialmente. $K$

Ou indo na outra direção, se é baixo no CV fold, os conjuntos de treinamento seriam bastante diferentes entre as dobras, e os modelos resultantes têm maior probabilidade de serem diferentes (portanto, maior variação). $K$ $K$

Se o argumento acima estiver correto, por que os modelos aprendidos com o currículo individualizado apresentam maior variação?

machine-learning variance cross-validation bias bias-variance-tradeoff Amelio Vazquez-Reina
fonte

2

Oi Amelio. Por favor, note que as simulações fornecidas na nova resposta por Xavier e neste Q mais velho por Jake Westfall stats.stackexchange.com/questions/280665 , ambos demonstram que a variação diminui com

. Isso contradiz diretamente a resposta atualmente aceita e também a resposta mais votada (que foi aceita anteriormente). Não vi nenhuma simulação em nenhum lugar que apoiasse a alegação de que a variação aumenta com

e é mais alta para LOOCV.

K

$K$

K

$K$

Ameba diz Reinstate Monica

2

Thanks @amoeba Estou assistindo o progresso das duas respostas. Definitivamente, farei o possível para garantir que a resposta aceita aponte para a mais útil e correta.

Amelio Vazquez-Reina

1

@amoeba ver researchgate.net/profile/Francisco_Martinez-Murcia/publication/... whhich mostra aumento da variância com k

Hanan Shteingart

seria interessante ver de onde ele tirou esse gráfico, à primeira vista a tese que parece ter sido inventada para ajustar suas explicações nas seções de introdução. Talvez seu uma simulação real, mas não é explicada, e certamente não é um resultado de suas experiências reais que são mais baixos ...

Xavier Bourret Sicotte

51

por que os modelos aprendidos com o currículo único têm maior variação?

[TL: DR] Um resumo das postagens e debates recentes (julho de 2018)

Este tópico foi amplamente discutido neste site e na literatura científica, com visões, intuições e conclusões conflitantes. De volta a 2013, quando essa pergunta foi feita em primeiro lugar, a visão dominante era que LOOCV leva a maior variância do erro de generalização espera de um algoritmo de treinamento produzindo modelos fora de amostras de tamanho . $n(K−1)/K$

Essa visão, no entanto, parece ser uma generalização incorreta de um caso especial e eu argumentaria que a resposta correta é: "depende ..."

Parafraseando Yves Grandvalet, autor de um artigo de 2004 sobre o tópico, resumiria o argumento intuitivo da seguinte maneira:

Se a validação cruzada estava calculando a média das estimativas independentes : então, deixe de fora o CV, deve-se observar uma variação relativamente menor entre os modelos, pois estamos apenas trocando um ponto de dados entre as dobras e, portanto, os conjuntos de treinamento entre as dobras se sobrepõem substancialmente.
Isso não é verdade quando os conjuntos de treinamento são altamente correlacionados : a correlação pode aumentar com K e esse aumento é responsável pelo aumento geral da variação no segundo cenário. Intuitivamente, nessa situação, o CV deixado de fora pode ficar cego às instabilidades existentes, mas não pode ser acionado alterando um único ponto nos dados de treinamento, o que o torna altamente variável para a realização do conjunto de treinamento.

Simulações experimentais de mim mesmo e de outras pessoas neste site, bem como as de pesquisadores nos artigos abaixo, mostrarão que não há verdade universal sobre o assunto. A maioria das experiências têm monotonicamente decrescente ou variância constante com , mas alguns casos especiais mostram aumento desacordo com . $K$ $K$

O restante desta resposta propõe uma simulação em um exemplo de brinquedo e uma revisão informal da literatura.

[Atualização] Você pode encontrar aqui uma simulação alternativa para um modelo instável na presença de outliers.

Simulações de um exemplo de brinquedo mostrando variação decrescente / constante

Considere o exemplo de brinquedo a seguir, onde estamos ajustando um polinômio de grau 4 a uma curva senoidal barulhenta. Esperamos que este modelo tenha um desempenho ruim para pequenos conjuntos de dados devido ao ajuste excessivo, como mostra a curva de aprendizado.

Observe que plotamos 1 - MSE aqui para reproduzir a ilustração da página 243 da ESLII

Metodologia

Você pode encontrar o código para esta simulação aqui . A abordagem foi a seguinte:

$sin(x) + \epsilon$ $\epsilon$
$i$ $N$
- $K$
- Armazene o erro médio quadrado médio (MSE) nas dobras em K
$i$ $i$ $K$
$K$ $\{ 5,...,N\}$

$K$ $i$

Lado Esquerdo : Kfolds para 200 pontos de dados, Lado Direito : Kfolds para 40 pontos de dados

Desvio padrão de MSE (entre os conjuntos de dados i) vs Kfolds

A partir desta simulação, parece que:

$N = 40$ $K$ $K=10$ $K$
$K \leq 5$
$N = 200$ $K$

Uma revisão informal da literatura

Os três artigos a seguir investigam o viés e a variação da validação cruzada

Kohavi 1995

Este artigo é frequentemente referido como a fonte do argumento de que o LOOC tem maior variação. Na seção 1:

"Por exemplo, deixar de lado é quase imparcial, mas tem alta variação, levando a estimativas não confiáveis (Efron 1983)"

Essa afirmação é fonte de muita confusão, porque parece ser de Efron em 1983, não de Kohavi. As argumentações teóricas de Kohavi e os resultados experimentais vão contra essa afirmação:

Corolário 2 (variação no CV)

$k$

Experiência Em seu experimento, Kohavi compara dois algoritmos: uma árvore de decisão C4.5 e um classificador Naive Bayes em vários conjuntos de dados do repositório UC Irvine. Seus resultados estão abaixo: LHS é precisão versus dobras (isto é, viés) e RHS é desvio padrão versus dobras

De fato, apenas a árvore de decisão em três conjuntos de dados tem claramente maior variação para aumentar K. Outros resultados mostram variação decrescente ou constante.

Finalmente, embora a conclusão possa ser formulada com mais força, não há argumento de que a LOO tenha uma variação maior, pelo contrário. Da seção 6. Resumo

"A validação cruzada de dobras k com valores moderados de k (10-20) reduz a variação ... À medida que k-diminui (2-5) e as amostras diminuem, há variação devido à instabilidade dos próprios conjuntos de treinamento.

Zhang e Yang

Os autores têm uma forte visão sobre esse tópico e afirmam claramente na Seção 7.1

De fato, na regressão linear de mínimos quadrados, Burman (1989) mostra que, entre os CVs com dobras k, ao estimar o erro de previsão, a LOO (isto é, CV com dobras n) apresenta o menor viés e variação assintótica. ...

... Então, um cálculo teórico ( Lu , 2007) mostra que o LOO tem o menor viés e variação ao mesmo tempo entre todos os CVs delete-n com todas as possíveis exclusões n_v consideradas

Resultados experimentais Da mesma forma, os experimentos de Zhang apontam na direção da variação decrescente de K, como mostrado abaixo para o modelo True e o modelo errado para a Figura 3 e Figura 5.

$K$

No entanto, se a seleção do modelo estiver envolvida, o desempenho do LOO piora na variabilidade, à medida que a incerteza da seleção do modelo aumenta devido ao grande espaço do modelo, aos pequenos coeficientes de penalidade e / ou ao uso de coeficientes de penalidade controlados por dados

Xavier Bourret Sicotte
fonte

11

K

$K$

K

$K$

4

@amoeba, aqui está um caso em que o LOOCV falha: considere n pontos de dados e um polinômio interpolador de grau n. Agora, dobre o número de pontos de dados adicionando uma duplicata diretamente em cada ponto existente. LOOCV diz que o erro é zero. Você precisa abaixar as dobras para obter informações úteis.

Paul

2

Para aqueles interessados nesta discussão - vamos continuar no chat: chat.stackexchange.com/rooms/80281/…

Xavier Bourret Sicotte

1

k - f o l d

$k-fold$

k = 10

$k=10$

1

@amoeba: re Kohavi / LOO e variação. Eu descobri que a LOO para alguns modelos de classificação pode ser bastante (surpreendentemente) instável. Isso é particularmente pronunciado no tamanho pequeno da amostra e acho que está relacionado ao caso de teste sempre pertencente à classe que está sub-representada. toda a amostra: na classificação binária, o estratificado leave-2-out não parece ter esse problema (mas não testei extensivamente). Essa instabilidade aumentaria a variação observada, fazendo com que o LOO se destacasse das outras opções de k. IIRC, isso é consistente com as descobertas de Kohavi.

Cbeleites

45

$k$ $k$ $S$ $S_i$ $S \setminus S_i$ $S_i$

$k>2$

Var (\sum_{i = 1}^{N} X_{i}) = \sum_{i = 1}^{N} \sum_{j = 1}^{N} Cov (X_{i}, X_{j})

$\begin{equation} \operatorname{Var}\left(\sum_{i=1}^NX_i\right)=\sum_{i=1}^N \sum_{j=1}^N \operatorname{Cov}\left(X_i,X_j\right) \end{equation}$

$k$

No entanto, observe que, embora a validação cruzada dupla não tenha o problema de sobreposição de conjuntos de treinamento, muitas vezes também apresenta grande variação, pois os conjuntos de treinamento têm apenas metade do tamanho da amostra original. Um bom compromisso é a validação cruzada dez vezes.

Alguns artigos interessantes que abordam esse assunto (dentre muitos outros):

Um estudo de validação cruzada e bootstrap para estimativa de precisão e seleção de modelos por Ron Kohavi
Nenhum estimador imparcial da variância da validação cruzada k-fold por Yoshua Bengio e Yves Grandvalet

Gitte
fonte

5

+1 (muito tempo atrás), mas relendo sua resposta agora, estou confuso com o seguinte. Você diz que o CV de duas vezes "muitas vezes também apresenta grande variação, porque os conjuntos de treinamento têm apenas metade do tamanho". Eu entendo que ter um conjunto de treinamento duas vezes menor é um problema, mas por que dá "grande variação"? Não deveria ser "grande viés"? Então, toda a questão de escolher o número de dobras se torna uma troca de desvios de variação, que é como é frequentemente apresentada.

ameba diz Restabelecer Monica

1

k

$k$

3

Estava apenas investigando alguma literatura. É interessante notar que, em Introdução ao aprendizado estatístico, James, Witten, Hastie e Tibshirani dizem que o LOOCV "é altamente variável, pois se baseia em uma única observação (x1, y1)". e em Elements of Statistical Learning, Hastie & Tibshirani & Friedman afirmam que LOOCV "pode ter alta variação porque os conjuntos de treinamento N são muito semelhantes entre si".

2

v a r [Σ x_{i} / n]

$var[\Sigma x_i / n]$

Σ Σ c o v (x_{i}, x_{j}) / n^{2}

$\Sigma\Sigma cov(x_i, x_j) / n^2$

3

Não, esse não é realmente o "ponto principal". As pessoas usam o CV k-fold para obter uma única estimativa global o tempo todo. Certamente, você pode tentar usar as estimativas de múltiplas dobras de outras maneiras, mas reuni-las é uma das maneiras mais comuns de estimar o desempenho de uma técnica de modelagem. E é exatamente isso que a Eq 7.48 da ESL está fazendo.

Paul

27

$K$

Eu acho que sua intuição é sensata se você estiver pensando nas previsões feitas pelos modelos em cada dobra deixada de fora. Eles são baseados em dados correlacionados / muito semelhantes (o conjunto de dados completo menos um ponto de dados) e, portanto, farão previsões semelhantes - ou seja, baixa variabilidade.

A fonte de confusão, porém, é que, quando as pessoas falam sobre LOOCV levando a alta variabilidade, elas não estão falando sobre as previsões feitas por muitos modelos criados durante esse ciclo de validação cruzada nos conjuntos de validação. Em vez disso, eles estão falando sobre quanta variabilidade seu modelo final escolhido (aquele escolhido via LOOCV) teria se você treinar esse modelo / parâmetros exatos em novos conjuntos de treinamento - conjuntos de treinamento que seu modelo não tinha visto antes. Nesse caso, a variabilidade seria alta.

Por que a variabilidade seria alta? Vamos simplificar um pouco isso. Imagine que, em vez de usar o LOOCV para escolher um modelo, você tenha apenas um conjunto de treinamento e depois teste um modelo construído usando esses dados de treinamento, digamos, 100 vezes em 100 pontos de dados de teste únicos (os pontos de dados não fazem parte do conjunto de treinamento) . Se você escolher o modelo e o conjunto de parâmetros que se saem melhor nesses 100 testes, selecionará um que permita que esse conjunto de treinamento específico seja realmente bom em prever os dados do teste. Você pode escolher um modelo que captura 100% das associações entre esse conjunto de dados de treinamento específico e os dados de validação. Infelizmente, algumas partes dessas associações entre os conjuntos de dados de treinamento e teste serão associações de ruídos ou falsas porque, embora o conjunto de testes seja alterado e você possa identificar ruídos neste lado, o conjunto de dados de treinamento não funciona e você não pode determinar qual variação explicada se deve ao ruído. Em outras palavras, o que isso significa é que superestimaram suas previsões para esse conjunto de dados de treinamento específico.

Agora, se você treinasse novamente este modelo com os mesmos parâmetros várias vezes em novos conjuntos de treinamento, o que aconteceria? Bem, um modelo que se adapte a um conjunto específico de dados de treinamento levará a variabilidade em sua previsão quando o conjunto de treinamento mudar (ou seja, altere o conjunto de treinamento levemente e o modelo alterará substancialmente suas previsões).

Como todas as dobras no LOOCV são altamente correlacionadas, é semelhante ao caso acima (mesmo conjunto de treinamento; diferentes pontos de teste). Em outras palavras, se esse conjunto de treinamento específico tiver alguma correlação espúria com esses pontos de teste, seu modelo terá dificuldades para determinar quais correlações são reais e quais são espúrias, porque, embora o conjunto de testes seja alterado, o conjunto de treinamento não.

Por outro lado, dobras de treinamento menos correlacionadas significam que o modelo será adequado para vários conjuntos de dados exclusivos. Portanto, nessa situação, se você treinar novamente o modelo em outro novo conjunto de dados, isso levará a uma previsão semelhante (ou seja, pequena variabilidade).

captain_ahab
fonte

4

Penso que esta resposta esclarece muito mais do que a resposta aceita e explica particularmente a resposta aceita.

D1X

o que você quer dizer com "Agora, se você treinasse novamente este modelo com os mesmos parâmetros várias vezes em novos conjuntos de treinamento, o que aconteceria?". Treinar significa encontrar os parâmetros, certo? você quis dizer hiperparâmetros?

MiloMinderbinder

14

Embora essa pergunta seja bastante antiga, gostaria de adicionar uma resposta adicional, pois acho que vale a pena esclarecer isso um pouco mais.

Minha pergunta é parcialmente motivada por este tópico: Número ideal de dobras na validação cruzada de dobras em K: o CV de deixar um comentário é sempre a melhor escolha? . A resposta sugere que os modelos aprendidos com a validação cruzada de exclusão única têm maior variação do que os aprendidos com a validação cruzada regular de K-fold, tornando o CV de exclusão única uma opção pior.

Essa resposta não sugere isso, e não deveria. Vamos revisar a resposta fornecida lá:

A validação cruzada de exclusão única geralmente não leva a um desempenho melhor que o K-fold e é mais provável que seja pior, pois apresenta uma variação relativamente alta (ou seja, seu valor muda mais para amostras diferentes de dados do que o valor para validação cruzada k-fold).

Está falando sobre desempenho . Aqui, o desempenho deve ser entendido como o desempenho do estimador de erros do modelo . O que você está estimando com k-fold ou LOOCV é o desempenho do modelo, ao usar essas técnicas para escolher o modelo e fornecer uma estimativa de erro em si. Esta NÃO é a variação do modelo, é a variação do estimador do erro (do modelo). Veja o exemplo (*) abaixo.

No entanto, minha intuição me diz que no CV deixado de fora deve-se observar uma variação relativamente menor entre os modelos do que no CV com dobras K, pois estamos apenas trocando um ponto de dados entre as dobras e, portanto, os conjuntos de treinamento entre as dobras se sobrepõem substancialmente.

$n-2$ $n$

É precisamente essa menor variação e maior correlação entre os modelos que faz com que o estimador de que falo acima tenha mais variação, porque esse estimador é a média dessas quantidades correlacionadas e a variação da média dos dados correlacionados é maior que a dos dados não correlacionados . Aqui é mostrado o porquê: variação da média dos dados correlacionados e não correlacionados .

Ou indo na outra direção, se K é baixo no CV de dobras em K, os conjuntos de treinamento seriam bastante diferentes entre as dobras e os modelos resultantes são mais propensos a serem diferentes (portanto, maior variação).

De fato.

Se o argumento acima estiver correto, por que os modelos aprendidos com o currículo individualizado apresentam maior variação?

O argumento acima está correto. Agora, a pergunta está errada. A variação do modelo é um tópico totalmente diferente. Há uma variação em que existe uma variável aleatória. No aprendizado de máquina, você lida com muitas variáveis aleatórias, em particular e não restritas a: cada observação é uma variável aleatória; a amostra é uma variável aleatória; o modelo, uma vez que é treinado a partir de uma variável aleatória, é uma variável aleatória; o estimador do erro que seu modelo produzirá quando confrontado com a população é uma variável aleatória; e por último mas não menos importante, o erro do modelo é uma variável aleatória, pois é provável que haja ruído na população (isso é chamado de erro irredutível). Também pode haver mais aleatoriedade se houver estocástico envolvido no processo de aprendizado do modelo. É de suma importância distinguir entre todas essas variáveis.

$err$ $err$ $E$ $\tilde{err}$ $\tilde{err}$ $var(\tilde{err})$ $E(\tilde{err}-err)$ $var(\tilde{err})$ $k-fold$ $k < n$ $err = 10$ $\tilde{err}_1$ $\tilde{err}_2$

{\tilde{e r r}}_{1} = 0, 5, 10, 20, 15, 5, 20, 0, 10, 15...

$\tilde{err}_1 = 0,5,10,20,15,5,20,0,10,15...$

{\tilde{e r r}}_{2} = 8.5, 9.5, 8.5, 9.5, 8.75, 9.25, 8.8, 9.2...

$\tilde{err}_2 = 8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...$

O último, embora tenha mais viés, deve ser preferido, pois possui muito menos variação e um viés aceitável , ou seja, um compromisso ( trade-off de viés-variância ). Observe que você não deseja uma variação muito baixa se isso implica em um viés alto!

Nota adicional : Nesta resposta, tento esclarecer (o que considero) os conceitos errôneos que cercam esse tópico e, em particular, tenta responder ponto por ponto e precisamente as dúvidas que o solicitante tem. Em particular, tento esclarecer qual variação estamos falando , e é sobre isso que é essencialmente solicitado aqui. Ou seja, explico a resposta que está vinculada pelo OP.

Dito isto, embora eu forneça o raciocínio teórico por trás da alegação, ainda não encontramos evidências empíricas conclusivas que a sustentem. Então, por favor, tenha muito cuidado.

Idealmente, você deve ler este post primeiro e depois consultar a resposta de Xavier Bourret Sicotte, que fornece uma discussão perspicaz sobre os aspectos empíricos.

$k$ $k-fold$ $k$ $10 \ \times \ 10-fold$

D1X
fonte

2

K

$K$

K

$K$

3

k \to N

$k \to N$

K

$K$

K = 10

$K=10$

K = N

$K=N$

1

Ainda não olhei para esses papéis, vou dar uma olhada neles quando tiver tempo. Ainda assim, os modelos lineares OLS são modelos muito simples, de fato sujeitos a baixa variação. Além disso, eles fecharam fórmulas para validação cruzada.

D1X

1

Com +1, suas edições tornam a resposta muito mais clara - estamos alinhados ao impacto da correlação entre os conjuntos de treinamento -> maior variação. Na prática, porém (experimentalmente), parece que os conjuntos de treinamento nem sempre são os que se correlacionam.

Xavier Bourret Sicotte

12

As questões são realmente sutis. Mas definitivamente não é verdade que o LOOCV tenha uma variação maior em geral. Um artigo recente discute alguns aspectos-chave e aborda vários equívocos aparentemente generalizados sobre validação cruzada.

Yongli Zhang e Yuhong Yang (2015). Validação cruzada para selecionar um procedimento de seleção de modelo. Journal of Econometrics, vol. 187, 95-112.

Os seguintes conceitos errôneos são freqüentemente vistos na literatura, até o momento:

"O CV de deixar um fora (LOO) tem um viés menor, mas uma variação maior do que o CV de deixar mais fora"

Essa visão é bastante popular. Por exemplo, Kohavi (1995, Seção 1) declara: "Por exemplo, deixar um fora é quase imparcial, mas apresenta alta variação, levando a estimativas não confiáveis". A afirmação, no entanto, geralmente não é verdadeira.

Em mais detalhes:

Na literatura, mesmo incluindo publicações recentes, há recomendações excessivamente aceitas. A sugestão geral de Kohavi (1995) de usar CV dez vezes foi amplamente aceita. Por exemplo, Krstajic et al (2014, página 11) afirmam: “Kohavi [6] e Hastie et al [4] mostram empiricamente que a validação cruzada de dobras em V em comparação com a validação cruzada de exclusão única apresenta menor variação”. Eles consequentemente aceitam a recomendação de 10 vezes o CV (com repetição) para todas as suas investigações numéricas. Em nossa opinião, essa prática pode ser enganosa. Primeiro, não deve haver nenhuma recomendação geral que não leve em consideração o objetivo do uso do CV. Em particular, O exame do viés e da variação da estimativa da precisão do CV de um modelo candidato / procedimento de modelagem pode ser uma questão muito diferente da seleção ideal de modelos (com um dos dois objetivos da seleção de modelos declarados anteriormente). Segundo, mesmo limitada ao contexto de estimativa de precisão, a afirmação geralmente não está correta. Para modelos / procedimentos de modelagem com baixa instabilidade, a LOO geralmente tem a menor variabilidade. Também demonstramos que, para procedimentos altamente instáveis (por exemplo, LASSO com pn muito maior que n), os CVs de 10 ou 5 vezes, enquanto reduzem a variabilidade, podem ter um MSE significativamente maior que o LOO devido a um aumento ainda maior do viés. Para modelos / procedimentos de modelagem com baixa instabilidade, a LOO geralmente tem a menor variabilidade. Também demonstramos que, para procedimentos altamente instáveis (por exemplo, LASSO com pn muito maior que n), os CVs de 10 ou 5 vezes, enquanto reduzem a variabilidade, podem ter um MSE significativamente maior que o LOO devido a um aumento ainda maior do viés. Para modelos / procedimentos de modelagem com baixa instabilidade, a LOO geralmente tem a menor variabilidade. Também demonstramos que, para procedimentos altamente instáveis (por exemplo, LASSO com pn muito maior que n), os CVs de 10 ou 5 vezes, enquanto reduzem a variabilidade, podem ter um MSE significativamente maior que o LOO devido a um aumento ainda maior do viés.

No geral, das Figuras 3-4, LOO e CVs repetidos de 50 e 20 vezes são os melhores aqui, 10 vezes é significativamente pior e k ≤ 5 é claramente ruim. Para estimativa preditiva de desempenho, tendemos a acreditar que a LOO é tipicamente a melhor ou uma das melhores para um modelo fixo ou para um procedimento de modelagem muito estável (como o BIC em nosso contexto), tanto no viés quanto na variância, ou muito próximo do melhor em MSE para um procedimento mais instável (como AIC ou mesmo LASSO com p p n). Embora o CV de 10 vezes (com repetições) certamente possa ser o melhor às vezes, mas com mais frequência, ele está em uma posição incômoda: é mais arriscado que a LOO (devido ao problema de viés) para a estimativa do erro de previsão e geralmente é pior do que excluir -n / 2 CV para identificar o melhor candidato.

Zack
fonte

4

É possível expandir um pouco essa resposta, talvez resumir alguns dos principais aspectos levantados no artigo?

Silverfish

3

Papel muito interessante. Ao revisar Kohavi (1995), senti que muitas afirmações eram impossivelmente amplas e praticamente sem fundamento. É um jornal de sabedoria popular, cujo interrogatório crítico está atrasado.

Paul

3

Antes de discutir sobre o viés e a variação, a primeira pergunta é:

O que é estimado por validação cruzada?

$K$ $n(K-1)/K$ $K$ $K$

$K$

$K$

$K$

Yves Grandvalet
fonte

4

K

$K$

0

Eu acho que há uma resposta mais direta. Se você aumentar k, os conjuntos de testes ficarão cada vez menores. Como as dobras são amostradas aleatoriamente, pode acontecer com pequenos conjuntos de testes, mas não tão provavelmente com os maiores, que eles não são representativos de um aleatório aleatório. Um conjunto de testes pode conter registros difíceis de prever e outro fácil. Portanto, a variação é alta quando você prevê conjuntos de testes muito pequenos por dobra.

David Ernst
fonte

X_{i}

$X_i$

4

parece que você está falando sobre variabilidade nas previsões de modelos nos conjuntos de validação durante a validação cruzada. Eu não acho que isso seja de muito interesse. O que interessa é se o seu modelo ajustado final variará muito nas previsões que ele faz se for treinado em dados diferentes (ou seja, a estimativa da verdade do seu modelo é realmente variável dependendo do conjunto de treinamento)

captain_ahab

E como você estimaria a variação esperada em dados ainda não vistos, se não através da variação observada entre conjuntos de dados previstos consecutivamente que eram desconhecidos na época? Entendo, porém, que a variabilidade que deriva apenas da configuração experimental não é de interesse. Minha resposta: Portanto, é preciso selecionar uma configuração experimental que não introduz novos tipos de variabilidade. Se alguém faz isso, os dois tipos de variabilidade não podem ser distinguidos e torna-se mais difícil estimar a extensão do tipo que é de interesse.

David Ernst

1

você pode mostrar isso com simulações (vou procurar um artigo). Não tenho certeza se estamos falando um do outro - mas quando hastie e pessoas estão falando sobre a alta correlação entre os conjuntos de treinamento no LOOCV, eles enfatizam que você basicamente continua treinando seu modelo no mesmo conjunto de dados de treinamento. Isso leva ao ajuste excessivo nesse conjunto de dados de treinamento. alterar o conjunto de dados de treinamento, você modela as previsões para o exemplo de teste X mudará muito. em contraste, se você conjuntos de treinamento foram menos correlacionadas, você pode usar um totalmente novo conjunto de treinamento e você deseja obter uma previsão semelhante, por exemplo, teste de X.

captain_ahab

Eu acho que há duas questões separadas envolvidas. Aumentar k leva a uma maior sobreposição entre os conjuntos de treinamento, com as conseqüências mencionadas. (Não estou discutindo nada disso). Ao mesmo tempo, o aumento de k leva a conjuntos de testes menores por dobra, o que significa que é mais provável que os registros sejam embaralhados de maneiras indesejadas nesses conjuntos. Eu acho que, para a pergunta específica, esse é o principal motivo. Também pode haver contribuições da sobreposição de conjuntos de treinamento. (Há um terceiro problema quando você usa repetições, porque então os conjuntos de teste ter se sobrepõem também.)

David Ernst

Viés e variância na validação cruzada de deixar um comentário versus dobra K

Respostas:

[TL: DR] Um resumo das postagens e debates recentes (julho de 2018)

Simulações de um exemplo de brinquedo mostrando variação decrescente / constante

Metodologia

$K$ $i$

Uma revisão informal da literatura

Kohavi 1995

Zhang e Yang

Viés e variância na validação cruzada de deixar um comentário versus dobra K

Respostas:

[TL: DR] Um resumo das postagens e debates recentes (julho de 2018)

Simulações de um exemplo de brinquedo mostrando variação decrescente / constante

Metodologia

KKKiii

Uma revisão informal da literatura

Kohavi 1995

Zhang e Yang

$K$ $i$