Seleção de características em um modelo linear generalizado hierárquico bayesiano

8

Pretendo estimar um GLM hierárquico, mas com a seleção de recursos para determinar quais covariáveis são relevantes no nível da população a serem incluídas.

Suponha que eu tenha grupos com observações e possíveis covariáveis Ou seja, possuo uma matriz de design de covariáveis , resultados . Os coeficientes dessas covariáveis são . $G$ $N$ $K$ $\boldsymbol{x}_{(N\cdot G) \times K}$ $\boldsymbol{y}_{(N\cdot G) \times 1}$ $\beta_{K \times 1}$

Suponha que $Y$ ~ $Bernoulli(p(x,\beta))$

A seguir, é apresentado um GLM bayesiano hierárquico padrão com modelo de amostragem logit e coeficientes de grupo normalmente distribuídos.

eu (y | x, β_{1}, . . . β_{G}) \propto \prod_{g = 1}^{G} \prod_{t = 1}^{N} {(Pr {j = 1 | p_{t}, β^{g}})}^{y_{g, t}} {(1 - Pr {j = 1 | p_{t}, β^{g}})}^{1 - y_{g, t}}

${\cal L}\left(\boldsymbol{y}|\boldsymbol{x},\beta_{1},...\beta_{G}\right)\propto\prod_{g=1}^{G}\prod_{t=1}^{N}\left(\Pr\{j=1|p_{t},\beta^{g}\}\right)^{y_{g,t}}\left(1-\Pr\{j=1|p_{t},\beta^{g}\}\right)^{1-y_{g,t}}$

β_{1}, . . . β_{G} | μ, Σ \sim^{Eu Eu d} N_{d} (μ, Σ)

$\beta_{1},...\beta_{G}|\mu,\Sigma\sim^{iid}{\cal N}_{d}\left(\mu,\Sigma\right)$

μ | Σ \sim N (μ_{0 0}, {uma}^{- 1} Σ)

$\mu|\Sigma\sim{\cal N}\left(\mu_{0},a^{-1}\Sigma\right)$

Σ \sim Eu W (v_{0 0}, V_{0 0}^{- 1})

$\Sigma\sim{\cal IW}\left(v_{0},V_{0}^{-1}\right)$

Quero modificar esse modelo (ou encontrar um documento que o faça, ou trabalhe que o discuta) de tal maneira que exista alguma seleção nítida de recursos (como no LASSO) sobre a dimensionalidade de $\beta$ .

(1) A maneira mais simples e direta seria regularizá-la no nível populacional, de modo a restringirmos essencialmente a dimensionalidade de e todos tenham a mesma dimensão. $\mu$ $\beta$

(2) O modelo com mais nuances teria encolhimento no nível do grupo, onde a dimensão de depende da unidade hierárquica. $\beta$

Estou interessado em resolver 1 e 2, mas muito mais importante é 1.

machine-learning bayesian feature-selection hierarchical-bayesian shrinkage wolfsatthedoor
fonte

1

A maneira como abordaria (1) envolveria um modelo de espigão e laje, algo como:

$\beta_{g,k} = z_{k}m_{g,k}$

$z_k \sim Bern(p)$

$m_{g,k} \sim N(\mu, \Sigma)$

$\mu, \Sigma \sim NIW_{v_0}(\mu_0, V_0^{-1})$

Este:

Mantém a flexibilidade nos 's do NIW anterior em . $\beta$ $\mu, \Sigma$
Modela a seleção de variáveis para todos os grupos de uma só vez.
Facilmente extensível adicionando um sub-índice para o grupo a e tendo um beta comum anterior para cada local . $z_{g,k}$ $k$

Claro, acho que esse é o tipo de problema em que existem várias abordagens válidas.

conjecturas
fonte

2

A seleção de recursos não é um grande objetivo a ter em uma análise. A menos que todos os preditores não estejam correlacionados e o tamanho da amostra seja imenso, os dados não conseguirão fornecer a resposta com segurança. A especificação do modelo é mais importante que a seleção do modelo. Os detalhes estão nas minhas Notas do curso RMS . Mas o encolhimento, sem a seleção de recursos (por exemplo, crista ou estimativa de probabilidade máxima penalizada ) pode ser uma boa idéia. Os modelos bayesianos hierárquicos são ainda melhores porque permitem inferência estatística no modelo encolhido, enquanto perdemos a maioria das ferramentas inferenciais no mundo freqüentista após encolher. $L_{2}$

Frank Harrell
fonte

Seleção de características em um modelo linear generalizado hierárquico bayesiano

Respostas: