Quais são alguns dos “documentos iniciais” mais importantes sobre métodos de Regularização?

10

Em várias respostas, vi usuários CrossValidated sugerirem que o OP encontre artigos iniciais sobre Lasso, Ridge e Elastic Net.

Para a posteridade, quais são as obras seminais sobre Lasso, Ridge e Elastic Net?

Scott Skiles
fonte

Respostas:

11

Como você está simplesmente procurando por referências, aqui está a lista:

  1. Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre a estabilidade de problemas inversos]. Doklady Akademii Nauk SSSR. 39 (5): 195–198.
  2. Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR. 151: 501–504. Traduzido em "Solução de problemas formulados incorretamente e o método de regularização". Matemática Soviética. 4: 1035-1038.
  3. Hoerl AE, 1962, Aplicação da análise de crista a problemas de regressão, Chemical Engineering Progress, 1958, 54-59.
  4. Arthur E. Hoerl; Robert W. Kennard (1970). "Regressão de Ridge: estimativa tendenciosa para problemas não-ortogonais". Technometrics. 12 (1): 55-67. doi: 10.2307 / 1267351. https://pdfs.semanticscholar.org/910e/d31ef5532dcbcf0bd01a980b1f79b9086fca.pdf
  5. Tibshirani, Robert (1996). "Retração e seleção de regressão através do laço" (PostScript). Jornal da Sociedade Estatística Real, Série B. 58 (1): 267–288. MR 1379242 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf
  6. Zou, H. e Hastie, T. (2005). Regularização e seleção de variáveis ​​via rede elástica. Jornal da Sociedade Estatística Real, Série B. 67: pp. 301–320. https://web.stanford.edu/~hastie/Papers/B67.2%20%282005%29%20301-320%20Zou%20&%20Hastie.pdf
Sandeep S. Sandhu
fonte
1

Um artigo historicamente importante que acredito primeiro demonstrou que os estimadores de polarização podem resultar em melhores estimativas para modelos lineares comuns:

  • Stein, C., 1956, janeiro. Inadmissibilidade do estimador usual para a média de uma distribuição normal multivariada. Em Proceedings of the Third Simpósio de Berkeley sobre estatística matemática e probabilidade (Vol. 1, No. 399, pp. 197-206).

Algumas penalidades mais modernas e importantes incluem SCAD e MCP:

  • Fan, J. e Li, R., 2001. Seleção variável via probabilidade penalizada não côncava e suas propriedades oraculares. Jornal da Associação Estatística Americana, 96 (456), pp.1348-1360.
  • Zhang, CH, 2010. Seleção variável quase imparcial sob penalidade côncava minimax. The Annals of statistics, 38 (2), pp.894-942.

E um pouco mais sobre algoritmos muito bons para obter estimativas usando esses métodos:

  • Breheny, P. e Huang, J., 2011. Coordenar algoritmos de descida para regressão penalizada não-convexa, com aplicações para seleção de características biológicas. Os anais das estatísticas aplicadas, 5 (1), p.232.
  • Mazumder, R., Friedman, JH e Hastie, T., 2011. Sparsenet: descida coordenada com penalidades não-convexas. Jornal da Associação Estatística Americana, 106 (495), pp.1125-1138.

Também vale a pena examinar este artigo sobre o seletor de Dantzig, que está intimamente relacionado ao LASSO, mas (acredito), introduz a idéia de desigualdades de oráculos para estimadores estatísticos, uma idéia bastante poderosa

  • Candes, E. e Tao, T., 2007. O seletor de Dantzig: Estimativa estatística quando p é muito maior que n. The Annals of Statistics, pp. 2313-2351.
dcl
fonte