Considere regressão líquida elástica com glmnet
parametrização semelhante à função de perda
Eu tenho um conjunto de dados com (44 e 3000 respectivamente) e estou usando a validação cruzada de 11 vezes repetida para selecionar os parâmetros de regularização ideais e . Normalmente, eu usaria o erro ao quadrado como a métrica de desempenho no conjunto de testes, por exemplo, essa métrica do tipo R ao quadrado:
mas desta vez também tentei usar a métrica de correlação (observe que para o A regressão OLS regularizada, minimizando a perda de erro ao quadrado, é equivalente a maximizar a correlação):
É claro que essas duas métricas de desempenho não são exatamente equivalentes, mas, estranhamente, elas discordam bastante:
Observe em particular o que acontece nos alfas pequenos, por exemplo, (linha verde): a correlação máxima do conjunto de testes é alcançada quando o conjunto de testes cai substancialmente em comparação com o máximo. Em geral, para qualquer , a correlação parece ser maximizada em \ lambda maior que o erro ao quadrado.
Por que isso acontece e como lidar com isso? Qual critério deve ser preferido? Alguém encontrou esse efeito?
Respostas:
Eu acho que descobri o que estava acontecendo aqui.
Observe que o valor da correlação não depende do comprimento de . Portanto, se a correlação do teste continuar aumentando enquanto o quadrado R do teste cair, isso pode indicar que não é o ideal e a escala cima ou para baixo por um fator escalar pode ajudar.β^ ∥β^∥ β^
Depois de perceber isso, lembrei-me de que havia na literatura múltiplas alegações de que a rede elástica, e até o laço por si só, "encolhem demais" os coeficientes. Para o laço, existe o procedimento "laço relaxado" que tem como objetivo alterar esse viés: consulte Vantagens de fazer o "laço duplo" ou executar o laço duas vezes? . Para redes elásticas, o artigo original de Zou & Hastie 2005 realmente defendia a expansão por um fator constante, consulte Por que o glmnet usa rede elástica "ingênua" do artigo original de Zou & Hastie? . Essa escala não alteraria o valor da correlação, mas afetaria o quadrado-R.β^
Quando aplico a escala heurística de Zou & Hastie obtenho o seguinte resultado:
Aqui, as linhas sólidas são as mesmas da figura na minha pergunta, enquanto as linhas tracejadas na subtrama esquerda usam a versão beta reescalonada. Agora, ambas as métricas são maximizadas em torno dos mesmos valores de e .α λ
Magia!
fonte