Inferência após o uso do Lasso para seleção de variáveis

17

Estou usando o Lasso para seleção de recursos em uma configuração dimensional relativamente baixa (n >> p). Depois de ajustar um modelo Lasso, quero usar as covariáveis ​​com coeficientes diferentes de zero para ajustar um modelo sem penalidade. Estou fazendo isso porque quero estimativas imparciais que Lasso não pode me dar. Eu também gostaria de valores-p e intervalos de confiança para a estimativa imparcial.

Estou tendo problemas para encontrar literatura sobre esse tópico. A maior parte da literatura que encontro é sobre colocar intervalos de confiança nas estimativas de Lasso, não um modelo reformado.

Pelo que li, simplesmente reequipar um modelo usando todo o conjunto de dados leva a pequenos valores irrealisticamente pequenos de p-values ​​/ std. No momento, a divisão de amostras (no estilo de Wasserman e Roeder (2014) ou Meinshausen et al. (2009)) parece ser um bom curso de ação, mas estou procurando mais sugestões.

Alguém encontrou este problema? Nesse caso, você poderia fornecer algumas sugestões.

EliK
fonte
Não entendo por que deveria importar se o estimador de laço é tendencioso desde que os intervalos de confiança tenham (pelo menos assintoticamente) a cobertura correta. Essa é a única razão pela qual você deseja ajustar as estimativas de OLS no suporte recuperado pelo laço?
user795305
Talvez eu tenha entendido mal o que li, mas a cobertura assintoticamente correta não se refere à estimativa tendenciosa, não à estimativa esparsa, mas imparcial?
EliK
1
Não sei ao certo o que você quer dizer com estimativa "verdadeira esparsa, mas imparcial", mas se você souber que as estimativas do laço têm intervalos de confiança com cobertura assintoticamente correta, não deve haver mais o que fazer. O artigo recém-vinculado por Greenparker (+1) é realmente interessante (e o mais recente que conheço sobre esse tópico) que discute (em parte) como você pode desenvolver intervalos de confiança assintoticamente corretos nos coeficientes do laço e depois dos seus ols. Estou tentando ressaltar que você não precisa ajustar o OLS para obter coeficientes imparciais, pois a imparcialidade não importa.
user795305
Eu acho que tenho entendido mal. A cobertura assintoticamente correta a que você está se referindo diz respeito ao parâmetro true. Portanto, mesmo que Lasso dê coeficientes tendenciosos, podemos construir intervalos de confiança que tenham a cobertura correta para o parâmetro verdadeiro?
Elik
2
Desde que você tenha selecionado um modelo, não terá estimativas não baseadas se estimar sem o Lasso. Os coeficientes dos termos no modelo após selecionar variáveis ​​e ajustar via OLS serão, na verdade, desviados de 0 (como em outras formas de seleção de variáveis). Uma pequena quantidade de contração pode realmente reduzir o viés.
Glen_b -Reinstala Monica

Respostas:

12

Para adicionar às respostas anteriores. Você definitivamente deveria conferir o trabalho recente de Tibshirani e colegas. Eles desenvolveram uma estrutura rigorosa para inferir valores de p corrigidos pela seleção e intervalos de confiança para métodos do tipo laço e também fornecem um pacote R.

Vejo:

Lee, Jason D. et al. "Inferência exata pós-seleção, com aplicação ao laço". The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan e Robert J. Tibshirani. "Aprendizagem estatística e inferência seletiva". Anais da Academia Nacional de Ciências 112.25 (2015): 7629-7634.

Pacote R:

https://cran.r-project.org/web/packages/selectiveInference/index.html

B.Schubert
fonte
17

Geralmente, o reajuste sem penalidade após a seleção de variáveis ​​pelo Lasso é considerado "trapaça", pois você já examinou os dados e os valores de p e os intervalos de confiança resultantes não são válidos no sentido usual.

p

o conjunto de variáveis ​​selecionadas pelo laço é determinístico e não depende de dados, com alta probabilidade.

Assim, espiar os dados duas vezes não é um problema. Você precisará verificar se, para o seu problema, as condições indicadas no documento são válidas ou não.

(Existem muitas referências úteis no artigo também)


Referência:

Zhao, S., Shojaie, A. e Witten, D. (2017). Em defesa do indefensável: Uma abordagem muito ingênua da inferência de alta dimensão. Disponível em: https://arxiv.org/pdf/1705.05543.pdf

Greenparker
fonte
9
+1 É importante observar, no entanto, que os autores não recomendam explicitamente sua abordagem, exceto "em configurações de dados muito grandes": "Não defendemos a aplicação da ... abordagem descrita acima nas configurações mais práticas de análise de dados: estamos confiantes que na prática ... essa abordagem terá um desempenho ruim quando o tamanho da amostra for pequeno ou moderado e / ou as suposições não forem atendidas "(na p. 27). Para o registro, este artigo é Zhao, Shojaie e Witten, Em defesa do indefensável: uma abordagem muito ingênua da inferência de alta dimensão (16 de maio de 2017).
whuber
@whuber E também lembre-se de que este artigo está no arxiv.org - não tenho certeza se foi revisado por pares; portanto, pode haver outros problemas com a metodologia do autor.
RobertF 01/08/19
0

Eu queria adicionar alguns artigos da literatura de aprendizado de máquina ortogonal / duplo que está se tornando popular na literatura de Econometria Aplicada.

  • Belloni, Alexandre, Victor Chernozhukov e Christian Hansen. "Inferência sobre os efeitos do tratamento após a seleção entre os controles de alta dimensão". The Review of Economic Studies 81.2 (2014): 608-650.

    Este artigo aborda as propriedades teóricas de uma estimativa do OLS do efeito de uma variável após a seleção dos "outros" controles usando o LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Aprendizado de máquina com dupla visão para tratamento e parâmetros estruturais, The Econometrics Journal, Volume 21, Edição 1, 1 de fevereiro de 2018, páginas C1 – C68 , https://doi.org/10.1111/ectj.12097

    Isso desenvolve a teoria abrangente para o uso de vários métodos não paramétricos (algoritmos ML) para controlar não linearmente um parâmetro incômodo de alta dimensão (fatores de confusão) e depois estudar o impacto de uma covariável específica no resultado. Eles lidam com estruturas parcialmente lineares e estruturas completamente paramétricas. Eles também consideram situações em que a variável de interesse é confundida.

FightMilk
fonte