Existem resultados analíticos ou artigos experimentais sobre a escolha ideal do coeficiente do termo de penalidade . Por ótimo , quero dizer um parâmetro que maximiza a probabilidade de selecionar o melhor modelo ou que minimiza a perda esperada. Estou perguntando porque muitas vezes é impraticável escolher o parâmetro por validação cruzada ou autoinicialização, seja por causa de um grande número de instâncias do problema ou por causa do tamanho do problema em questão. O único resultado positivo de que conheço é Candes and Plan, seleção de modelo quase ideal por ℓ 1 minimização .
model-selection
lasso
shrinkage
gappy
fonte
fonte
Respostas:
Teorema de checkout 5.1 deste Bickel et al. . Uma escolha estatisticamente optimizada em termos de erro é (com probabilidade alta), para uma constante .∥y−y^(λ)∥22 A>2√λ=Aσnoiselogpn−−−−−√ A>22–√
fonte
Suponho que você esteja interessado principalmente em regressão, como no artigo citado, e não em outras aplicações da (laço gráfico, digamos).ℓ1
Acredito então que algumas respostas podem ser encontradas no artigo Sobre os "graus de liberdade" do laço de Zou et al. Resumidamente, fornece uma fórmula analítica para os graus efetivos de liberdade , que, para a perda quadrada de erro, permitem substituir o CV por uma estatística analítica do tipo , digamos.Cp
Outro lugar para procurar é no seletor The Dantzig: Estimação estatística quando p é muito maior que n e os artigos de discussão na mesma edição de Annals of Statistics. Entendo que eles resolvem um problema intimamente relacionado à regressão do laço, mas com uma escolha fixa de coeficiente de penalidade. Mas, por favor, dê uma olhada nos documentos de discussão também.
Se você não está interessado em previsão, mas na seleção de modelos, não conheço resultados semelhantes. Modelos ideais de previsão geralmente resultam em muitas variáveis selecionadas em modelos de regressão. No artigo Seleção de estabilidade, Meinshausen e Bühlmann apresentam uma técnica de subamostragem mais útil para a seleção de modelos, mas pode ser muito exigente em termos computacionais para suas necessidades.
fonte
Desde que esta pergunta foi feita, foram feitos progressos interessantes. Por exemplo, considere este artigo
Eles propõem um método para selecionar o parâmetro de ajuste do LASSO com garantias prováveis de amostras finitas para a seleção do modelo. Como se costuma dizer no artigo, "para esquemas de calibração padrão, entre eles a validação cruzada, não há garantias comparáveis disponíveis na literatura. De fato, não temos conhecimento de nenhuma garantia finita de amostra para esquemas de calibração padrão".
fonte
Isso não responde à sua pergunta, mas: em uma configuração de dados grande, pode ser bom ajustar o regularizador usando uma única divisão de teste / trem, em vez de fazê-lo 10 ou mais vezes na validação cruzada (ou mais para inicialização). O tamanho e a representatividade da amostra escolhida para o devset determina a precisão da estimativa do regularizador ideal.
Na minha experiência, a perda prolongada é relativamente baixa em uma faixa substancial de regularizadores. Tenho certeza de que esse fato pode não se aplicar a outros problemas.
fonte