Lendo o artigo "Forecasting in Scale" (ferramenta de previsão do FBProphet, consulte https://peerj.com/preprints/3190.pdf ), me deparei com o termo "sparse prior". Os autores explicam que eles estavam usando um "anterior esparso" na modelagem de um vetor de desvios de taxa de alguma taxa escalar , que é um parâmetro de modelo no modelo de crescimento logístico.
Como eles afirmam que , entendo corretamente que "esparso" refere-se ao vetor que carrega elementos próximos a zero, se o parâmetro for pequeno? Estou confuso, porque pensei que todos os elementos vetoriais precisavam ser parâmetros da regressão, mas defini-los dessa maneira apenas deixa os parâmetros e como parâmetros de modelo livre, não é?
Além disso, é o uso da distribuição Laplace para gerar o comum anterior? Não entendo por que é preferível a, por exemplo, uma distribuição normal.
fonte
Respostas:
Dados esparsos são dados com muitos zeros. Aqui, os autores parecem estar chamando o prior de esparso, porque prefere os zeros. Isso é bastante auto-explicativo se você observar a forma da distribuição de Laplace (também conhecida como dupla exponencial), que chega ao ponto zero.
(fonte da imagem Tibshirani, 1996)
Esse efeito é verdadeiro para qualquer valor de (a distribuição sempre atinge o pico em seu parâmetro de localização, aqui igual a zero), embora quanto menor o valor do parâmetro, maior será o efeito de regularização.τ
Por esse motivo, Laplace prior é frequentemente usado como robusto anterior , tendo o efeito de regularização. Dito isto, o Laplace anterior é uma escolha popular, mas se você quiser soluções realmente esparsas, pode haver opções melhores, conforme descrito por Van Erp et al (2019).
Van Erp, S., Oberski, DL, & Mulder, J. (2019). Priores de retração para regressão penalizada bayesiana. Jornal de Psicologia Matemática, 89 , 31-50. doi: 10.1016 / j.jmp.2018.12.004
fonte