Estou usando o Lasso para seleção de recursos em uma configuração dimensional relativamente baixa (n >> p). Depois de ajustar um modelo Lasso, quero usar as covariáveis com coeficientes diferentes de zero para ajustar um modelo sem penalidade. Estou fazendo isso porque quero estimativas imparciais que Lasso não pode me dar. Eu também gostaria de valores-p e intervalos de confiança para a estimativa imparcial.
Estou tendo problemas para encontrar literatura sobre esse tópico. A maior parte da literatura que encontro é sobre colocar intervalos de confiança nas estimativas de Lasso, não um modelo reformado.
Pelo que li, simplesmente reequipar um modelo usando todo o conjunto de dados leva a pequenos valores irrealisticamente pequenos de p-values / std. No momento, a divisão de amostras (no estilo de Wasserman e Roeder (2014) ou Meinshausen et al. (2009)) parece ser um bom curso de ação, mas estou procurando mais sugestões.
Alguém encontrou este problema? Nesse caso, você poderia fornecer algumas sugestões.
Respostas:
Para adicionar às respostas anteriores. Você definitivamente deveria conferir o trabalho recente de Tibshirani e colegas. Eles desenvolveram uma estrutura rigorosa para inferir valores de p corrigidos pela seleção e intervalos de confiança para métodos do tipo laço e também fornecem um pacote R.
Vejo:
Lee, Jason D. et al. "Inferência exata pós-seleção, com aplicação ao laço". The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Taylor, Jonathan e Robert J. Tibshirani. "Aprendizagem estatística e inferência seletiva". Anais da Academia Nacional de Ciências 112.25 (2015): 7629-7634.
Pacote R:
https://cran.r-project.org/web/packages/selectiveInference/index.html
fonte
Geralmente, o reajuste sem penalidade após a seleção de variáveis pelo Lasso é considerado "trapaça", pois você já examinou os dados e os valores de p e os intervalos de confiança resultantes não são válidos no sentido usual.
Assim, espiar os dados duas vezes não é um problema. Você precisará verificar se, para o seu problema, as condições indicadas no documento são válidas ou não.
(Existem muitas referências úteis no artigo também)
Referência:
Zhao, S., Shojaie, A. e Witten, D. (2017). Em defesa do indefensável: Uma abordagem muito ingênua da inferência de alta dimensão. Disponível em: https://arxiv.org/pdf/1705.05543.pdf
fonte
Eu queria adicionar alguns artigos da literatura de aprendizado de máquina ortogonal / duplo que está se tornando popular na literatura de Econometria Aplicada.
Belloni, Alexandre, Victor Chernozhukov e Christian Hansen. "Inferência sobre os efeitos do tratamento após a seleção entre os controles de alta dimensão". The Review of Economic Studies 81.2 (2014): 608-650.
Este artigo aborda as propriedades teóricas de uma estimativa do OLS do efeito de uma variável após a seleção dos "outros" controles usando o LASSO.
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Aprendizado de máquina com dupla visão para tratamento e parâmetros estruturais, The Econometrics Journal, Volume 21, Edição 1, 1 de fevereiro de 2018, páginas C1 – C68 , https://doi.org/10.1111/ectj.12097
Isso desenvolve a teoria abrangente para o uso de vários métodos não paramétricos (algoritmos ML) para controlar não linearmente um parâmetro incômodo de alta dimensão (fatores de confusão) e depois estudar o impacto de uma covariável específica no resultado. Eles lidam com estruturas parcialmente lineares e estruturas completamente paramétricas. Eles também consideram situações em que a variável de interesse é confundida.
fonte