Seleção de penalidade ideal para o laço

15

Existem resultados analíticos ou artigos experimentais sobre a escolha ideal do coeficiente do termo de penalidade . Por ótimo , quero dizer um parâmetro que maximiza a probabilidade de selecionar o melhor modelo ou que minimiza a perda esperada. Estou perguntando porque muitas vezes é impraticável escolher o parâmetro por validação cruzada ou autoinicialização, seja por causa de um grande número de instâncias do problema ou por causa do tamanho do problema em questão. O único resultado positivo de que conheço é Candes and Plan, seleção de modelo quase ideal por 111 minimização .

gappy
fonte
2
Você conhece documentos que estabelecem resultados de consistência para o laço? Knight & Fu (2000), Yu & Zhao (2006) e vários artigos de Meinshausen.
cardeal
Sim, mas minha pergunta não é sobre consistência assintótica, que é o assunto dos artigos que você mencionou.
gappy
1
Esses documentos são (principalmente) sobre consistência na seleção de modelos , o que eu diria estar muito relacionado à pergunta que você fez. :)
cardeal

Respostas:

2

Teorema de checkout 5.1 deste Bickel et al. . Uma escolha estatisticamente optimizada em termos de erro é (com probabilidade alta), para uma constante .yy^(λ)22 A>2λ=AσnoiselogpnA>22

dohmatob
fonte
Este não parece ser bastante para caber a conta, uma vez que exige saber . Na verdade, é exatamente esse problema que motiva a raiz quadrada lasso ( arxiv.org/pdf/1009.5689.pdf )σnoEuse
user795305
5

Suponho que você esteja interessado principalmente em regressão, como no artigo citado, e não em outras aplicações da (laço gráfico, digamos).1

Acredito então que algumas respostas podem ser encontradas no artigo Sobre os "graus de liberdade" do laço de Zou et al. Resumidamente, fornece uma fórmula analítica para os graus efetivos de liberdade , que, para a perda quadrada de erro, permitem substituir o CV por uma estatística analítica do tipo , digamos.Cp

Outro lugar para procurar é no seletor The Dantzig: Estimação estatística quando p é muito maior que n e os artigos de discussão na mesma edição de Annals of Statistics. Entendo que eles resolvem um problema intimamente relacionado à regressão do laço, mas com uma escolha fixa de coeficiente de penalidade. Mas, por favor, dê uma olhada nos documentos de discussão também.

Se você não está interessado em previsão, mas na seleção de modelos, não conheço resultados semelhantes. Modelos ideais de previsão geralmente resultam em muitas variáveis ​​selecionadas em modelos de regressão. No artigo Seleção de estabilidade, Meinshausen e Bühlmann apresentam uma técnica de subamostragem mais útil para a seleção de modelos, mas pode ser muito exigente em termos computacionais para suas necessidades.

NRH
fonte
(+1) Todos os três trabalhos merecem uma leitura cuidadosa para os interessados ​​neste assunto. O trabalho do seletor de Dantzig tem uma matemática muito boa; no entanto, não tenho visto muita tração nos aplicativos, nem espero. Acho que, entre outras coisas, os caminhos de regularização muito barulhentos deixam as pessoas nervosas e, portanto, sem nenhum benefício óbvio sobre o laço, dificultam a venda.
cardeal
Hum, observe que, embora o número de coeficientes diferentes de zero para um determinado valor do parâmetro de regularização seja uma estimativa imparcial para os DoFs nesse valor, essa estimativa é extremamente alta.
Dohmatob 1/17
1

Desde que esta pergunta foi feita, foram feitos progressos interessantes. Por exemplo, considere este artigo

Chichignoud, M., Lederer, J., & Wainwright, M. (2016). Um esquema prático e um algoritmo rápido para ajustar o laço com garantias de otimização. Journal of Machine Learning Research, 17, 1–17.

Eles propõem um método para selecionar o parâmetro de ajuste do LASSO com garantias prováveis ​​de amostras finitas para a seleção do modelo. Como se costuma dizer no artigo, "para esquemas de calibração padrão, entre eles a validação cruzada, não há garantias comparáveis ​​disponíveis na literatura. De fato, não temos conhecimento de nenhuma garantia finita de amostra para esquemas de calibração padrão".

user795305
fonte
0

Isso não responde à sua pergunta, mas: em uma configuração de dados grande, pode ser bom ajustar o regularizador usando uma única divisão de teste / trem, em vez de fazê-lo 10 ou mais vezes na validação cruzada (ou mais para inicialização). O tamanho e a representatividade da amostra escolhida para o devset determina a precisão da estimativa do regularizador ideal.

Na minha experiência, a perda prolongada é relativamente baixa em uma faixa substancial de regularizadores. Tenho certeza de que esse fato pode não se aplicar a outros problemas.

Brendan OConnor
fonte