cobertura dos intervalos de confiança com estimativas regularizadas

21

Suponha que eu esteja tentando estimar um grande número de parâmetros a partir de alguns dados de alta dimensão, usando algum tipo de estimativa regularizada. O regularizador introduz algum viés nas estimativas, mas ainda pode ser um bom compromisso, porque a redução na variação deve mais do que compensar isso.

O problema surge quando eu quero estimar intervalos de confiança (por exemplo, usando a aproximação de Laplace ou a inicialização). Especificamente, o viés nas minhas estimativas leva a uma cobertura ruim nos meus intervalos de confiança, o que dificulta a determinação das propriedades freqüentes do meu estimador.

Eu encontrei alguns trabalhos discutindo esse problema (por exemplo, "Intervalos de confiança assintóticos na regressão de cume com base na expansão de Edgeworth" ), mas a matemática está principalmente acima da minha cabeça. No artigo vinculado, as Equações 92-93 parecem fornecer um fator de correção para estimativas que foram regularizadas por regressão de crista, mas eu queria saber se havia bons procedimentos que funcionariam com uma variedade de regularizadores diferentes.

Mesmo uma correção de primeira ordem seria extremamente útil.

David J. Harris
fonte
4
+1 em uma pergunta oportuna e importante - embora não tenha certeza de que alguém possa responder afirmativamente no momento (acho que simplesmente não sabemos como fazer isso corretamente e, se eu soubesse, teria alguns Anais de Documentos estatísticos alinhados). Pergunta relacionada: stats.stackexchange.com/questions/91462/… Sabemos que o bootstrap é executado puramente nessas situações, mas isso não ajuda.
Momo
Obrigado pelo link. Você poderia esclarecer o que quis dizer com relação à inicialização?
David J. Harris,
Além disso, ainda tenho esperança de que alguém possa ter métodos que funcionem bem para regularizadores não esparsos. Eu imagino que a penalidade de L1 torne as coisas especialmente difíceis por causa de todas as estimativas empilhadas em zero. Obrigado novamente.
David J. Harris
1
cd
1
O artigo de Ruben Dezeure, Peter Bühlmann, Lukas Meier e Nicolai Meinshausen é, até onde sei, o relato mais recente e abrangente sobre inferência em um ambiente de alta dimensão.
NRH 25/06

Respostas:

4

Existe um artigo recente que aborda precisamente sua pergunta (se você deseja executar uma regressão em seus dados, como eu entendo) e, felizmente, fornece expressões que são fáceis de calcular (Intervalos de Confiança e Teste de Hipóteses para Regressão de Alta Dimensão).

Além disso, você pode estar interessado no trabalho recente de Peter Bühlmann sobre esse mesmo tópico. Mas acredito que o primeiro artigo fornece o que você está procurando e o conteúdo é mais fácil de digerir (também não sou estatístico).

jpmuc
fonte
+1 papel interessante. Portanto, parece que existem pelo menos três idéias concorrentes de como abordar esses problemas e, pelo que vejo, eles não estão intimamente relacionados. Depois, há também o teorema da impossibilidade em journals.cambridge.org/action/…. Será interessante ver como isso acontece e o que emerge como canônico.
Momo
Obrigado. Isso pode não ser algo que eu realmente possa implementar, mas parece que a matemática funciona para uma variedade de estimativas regularizadas.
David J. Harris
1

http://cran.r-project.org/web/packages/hdi/index.html

É isso que você está procurando?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.
Tagar
fonte
Eu esperava algo que funcionasse para uma variedade de regularizadores (geralmente não esparsos). Obrigado embora.
David J. Harris