Espigão e laje bayesiana versus métodos penalizados

11

Estou lendo os slides de Steven Scott sobre o pacote BSTS R (você pode encontrá-los aqui: slides ).

Em algum momento, ao falar sobre a inclusão de muitos regressores no modelo estrutural de séries temporais, ele introduz os preceitos de pico e laje dos coeficientes de regressão e diz que eles são melhores em comparação aos métodos penalizados.

Scott diz, referindo-se a um exemplo de um conjunto de dados com 100 preditores:

  • Os métodos penalizados tomam uma decisão única sobre quais variáveis ​​são incluídas / excluídas, o que significa que elas decidem um subconjunto de preditores, ou seja, um modelo entre os possíveis.2100
  • "Os anteriores do laço (e relacionados) não são escassos, eles induzem a escarsidade no modo, mas não na distribuição posterior"

Neste ponto, ele apresenta os priores de Spike e Slab.

Acho que entendi a intuição, mas quero ter certeza disso:

  • Eles são melhores no sentido de que usam basicamente uma abordagem de força bruta testando cada subconjunto possível de regressores a serem incluídos?
  • A desvantagem é o tempo de computação ao fazê-lo?
  • O que você acha que ele quis dizer quando disse "Lasso (e afins) ... mas não na distribuição posterior"?
Tommaso Guerrini
fonte

Respostas:

10

Vou responder sua terceira pergunta primeiro e abordar as outras duas depois.

  1. O que você acha que ele quis dizer quando disse "Lasso (e afins) ... mas não na distribuição posterior"?

Esta figura de seus slides mostra o que ele quer dizer. Expressar o regularizador de laço como uma distribuição prévia significa que sua distribuição anterior assumirá a forma de uma distribuição Laplaciana ou de dupla exponencial . Essa distribuição possui um pico característico não suave na média, que é definido como 0 para obter um efeito de regularização esparso. Para obter diretamente um resultado regularizado do laço, você deve usar o modo de sua distribuição posterior.

teste

Na figura, a linha tracejada azul representa a distribuição anterior do Laplaciano. A distribuição posterior, em preto sólido, tem seu modo em 0 à esquerda com uma probabilidade fraca, enquanto o modo é diferente de zero à direita com uma forte probabilidade.

No entanto, a distribuição posterior completa não é esparsa, porque se você fizer uma amostra dela, raramente obterá algum valor próximo de 0 e, de fato, por ser uma distribuição contínua, nunca obterá precisamente 0.

Para alcançar a escassez com uma abordagem de laço, normalmente é necessário definir um limite de corte no modo posterior. O caso ideal é se o seu modo posterior for igual a 0, mas você poderá relaxar isso e eliminar sua variável se o modo posterior for menor que 0,2 após obter o valor absoluto.

A execução dessa esparsificação sob laço fornece um conjunto específico de regressores eliminados e retidos, que é a "decisão única" sobre quais regressores são incluídos ou excluídos.

Uma abordagem totalmente bayesiana para a seleção de variáveis, o pico e a laje anteriores, mantém a incerteza sobre quais variáveis ​​devem ser incluídas ou excluídas durante todo o processo.

Então, para responder à sua primeira pergunta:

  1. Eles são melhores no sentido de que usam basicamente uma abordagem de força bruta testando cada subconjunto possível de regressores a serem incluídos?

Isso é um mal-entendido, pois nenhum método testa todos os possíveis subconjuntos de regressores a serem incluídos.

  1. A desvantagem é o tempo de computação ao fazê-lo?

Isso também é um mal-entendido, já que o tempo de computação não é dominado pela força bruta testando cada subconjunto possível de regressores.

Para esclarecer o argumento de Scott, dados alguns dados, se você usar uma abordagem de sparsification de probabilidade penalizada, obterá exatamente um conjunto de regressores incluídos e excluídos. Mas se você usar uma abordagem de esparsificação de espiga e laje, terá uma distribuição posterior completa para cada regressor, cada um com uma probabilidade separada de ser incluído ou excluído. Alguns regressores podem ter 70% de chance de serem incluídos, outros 25%. Isso pode ser preferível em muitas aplicações, porque, dado um único conjunto de dados, ainda devemos ter incerteza sobre quais regressores são importantes ou não.

Intuitivamente, um espigão e laje anterior representa melhor o possível espaço de regressores incluídos / excluídos em comparação com uma abordagem de probabilidade penalizada como o laço.

esteta
fonte
2
Muito obrigado! Meu entendimento dos slides de Scott era tão superficial e parcialmente errado, você deixou claro!
Tommaso Guerrini