Jackknife vs. LOOCV

15

Existe realmente alguma diferença entre o canivete e deixar uma validação cruzada? O procedimento parece idêntico. Estou perdendo alguma coisa?

Wintermute
fonte

Respostas:

11

Na validação cruzada, você calcula uma estatística nas amostras deixadas de fora. Na maioria das vezes, você prediz as amostras deixadas de fora por um modelo construído nas amostras mantidas. No jackknifing, você calcula uma estatística apenas das amostras mantidas.

Tommy L
fonte
4
Eu não entendo como esta resposta fala com o LOOCV na pergunta original. Em que sentido alguém pode "calcular uma estatística" em uma única observação deixada de fora?
Alexis
12

Jackknife geralmente se refere a 2 processos relacionados, mas diferentes, ambos baseados em uma abordagem de deixar um fora - levando a essa mesma confusão.

Em um contexto, o canivete pode ser usado para estimar parâmetros populacionais e seus erros-padrão. Por exemplo, para usar uma abordagem de canivete para estimar a inclinação e a interceptação de um modelo de regressão simples, seria necessário:

  1. Estime a inclinação e intercepte usando todos os dados disponíveis.
  2. Deixe de lado uma observação e estime a inclinação e a interceptação (também conhecida como "estimativa parcial" dos coeficientes).
  3. Calcule a diferença entre a "estimativa parcial" e a estimativa "todos os dados" da inclinação e da interceptação (também conhecido como "pseudo-valor" dos coeficientes).
  4. Repita as etapas 2 e 3 para todo o conjunto de dados.
  5. Calcule a média dos pseudo-valores para cada coeficiente - estas são as estimativas do canivete da inclinação e interceptação

Os pseudo-valores e as estimativas do canivete dos coeficientes também podem ser usados ​​para determinar os erros padrão e, portanto, os intervalos de confiança. Normalmente, essa abordagem fornece intervalos de confiança mais amplos para os coeficientes, porque é uma medida de incerteza melhor e mais conservadora. Além disso, essa abordagem também pode ser usada para obter uma estimativa do viés do canivete para os coeficientes.

No outro contexto, o canivete é usado para avaliar o desempenho do modelo. Nesse caso, canivete = validação cruzada de exclusão única. Ambos se referem a deixar uma observação fora do conjunto de dados de calibração, recalibrar o modelo e prever a observação que foi deixada de fora. Essencialmente, cada observação está sendo prevista usando suas "estimativas parciais" dos preditores.

Aqui está uma pequena descrição sobre o canivete que encontrei on-line: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf

jcmb
fonte
1
A menos que eu esteja enganado (e posso estar enganado), seu primeiro contexto descreve a validação cruzada de deixar um fora .
Alexis
2
Eu estava apenas separando as idéias de estimar parâmetros usando LOO versus estimar o valor que foi deixado de fora (como em LOOCV). Eu os vejo como dois processos relacionados, mas ligeiramente diferentes, mas talvez ambos possam ser chamados de LOOCV? Eu também poderia estar enganado.
CCCA