Estatística PRESS para regressão de crista

9

Nos mínimos quadrados comuns, regredindo um vetor alvo contra um conjunto de preditores , a matriz de chapéu é calculada comoyX

H=X(XtX)1Xt

e a PRESS (soma residual prevista dos quadrados) é calculada por

SSP=i(ei1hii)2

onde é o th residual e o são os elementos da diagonal da matriz de chapéu.eiihii

Na regressão de crista com coeficiente de penalidade , a matriz de chapéu é modificada para serλ

H=X(XtX+λI)1Xt

A estatística PRESS pode ser calculada da mesma maneira, usando a matriz de chapéu modificada?

Chris Taylor
fonte

Respostas:

7

sim, eu uso muito esse método para a regressão do cume do kernel, e é uma boa maneira de selecionar o parâmetro do cume (veja, por exemplo, este documento [doi , preprint] ).

Uma busca pelo parâmetro ideal de cume pode ser muito eficiente se os cálculos forem realizados de forma canônica (veja, por exemplo, este documento ), onde o modelo é re-parametrizado para que seja necessária a inversa de uma matriz diagonal.

Dikran Marsupial
fonte
Obrigado. Na sua experiência, se você usar o PRESS para selecionar o parâmetro da crista, como o erro real de previsão em um conjunto de testes se compara com o seu PRESS medido no conjunto de treinamento? Presumivelmente (PRESS / n) é uma subestimação do erro de previsão, mas é confiável na prática?
22812 Chris Taylor
1
O IMPRENSA é aproximadamente imparcial, o problema real é a variação, o que significa que há muita variabilidade, dependendo da amostra específica de dados em que é avaliada. Isso significa que, se você otimizar o PRESS na seleção de modelos, poderá ajustar o critério de seleção de modelos e acabar com um modelo ruim. No entanto, para o tipo de modelo em que estou interessado (métodos de aprendizado do kernel), é bastante eficaz e o problema de variação não parece ser muito pior do que outro critério que se espera que funcione melhor.
Dikran Marsupial
Em caso de dúvida, você sempre pode usar o ensacamento, além da regressão do cume, como uma espécie de abordagem "cinta e chaves" para evitar o excesso de ajuste.
Dikran Marsupial
Obrigado pela ajuda! Fiquei com a impressão de que o ensacamento não deu nenhuma melhoria nos modelos lineares, por exemplo, conforme reivindicado no artigo da Wikipedia ? Você pode esclarecer?
22612 Chris Taylor
sem problemas. Suspeito que o artigo da Wikipedia esteja incorreto, a seleção de subconjuntos em regressão linear é um dos exemplos que Brieman usa no artigo original sobre Bagging. É possível que a regressão linear de mínimos quadrados sem seleção de subconjunto seja assintoticamente não afetada pelo empacotamento, mas mesmo assim duvido que se aplique a modelos lineares de maneira mais geral (como a regressão logística).
Dikran Marsupial
0

A seguinte abordagem pode ser adotada para aplicar a regularização L2 e obter a estatística PRESS. O método usa uma abordagem de aumento de dados.

Suponha que você tenha N amostras de Y e K variáveis ​​explicativas X1, X2 ... Xk .... XK

  1. Adicione variável adicional X0 que possui 1 sobre as amostras N
  2. Aumente com K amostras adicionais onde:
    • O valor Y é 0 para cada uma das amostras K
    • O valor X0 é 0 para cada uma das amostras K
    • O valor Xk é SQRT (Lambda * N) * [DESVPAD (Xk) sobre N amostras] se estiver na diagonal e 0 em caso contrário
  3. Agora existem amostras de N + K e variáveis ​​K + 1. Uma regressão linear normal pode ser resolvida com essas entradas.
  4. Como essa regressão é feita em uma única etapa, a estatística PRESS pode ser calculada como normal.
  5. A entrada de regularização do Lambda deve ser decidida. A revisão da estatística PRESS para diferentes entradas do Lambada pode ajudar a determinar um valor adequado.
James65
fonte