Como parte da reprodução de um modelo que descrevi parcialmente nesta questão no Stack Overflow, quero obter um gráfico de uma distribuição posterior. O modelo (espacial) descreve o preço de venda de algumas propriedades como uma distribuição de Bernoulli, dependendo de a propriedade ser cara (1) ou barata (0). Nas equações:
p i ~ logit - 1 ( b 0 + b 1 livingarea / 1000 + b 2 Idade + w ( s ) ) w ( s ) ~ MVN ( 0 , Σ )
onde é o resultado binário 1 ou 0, é a probabilidade de ser barato ou caro, é uma variável aleatória espacial em que representa sua posição . Tudo isso para cada porque existem 70 propriedades no conjunto de dados. é uma matriz de covariância baseada na posição geográfica dos pontos de dados. Se você estiver curioso sobre esse modelo, o conjunto de dados pode ser encontrado aqui . p i w ( s ) s i = { 1 , . . . , 70 } Σ
A plotagem que desejo obter é a seguinte plotagem de contorno:
A figura é descrita como "Gráfico da imagem da superfície mediana posterior do processo latente , modelo espacial binário". O livro também diz o seguinte:
A Figura 5.8 mostra o gráfico da imagem com linhas de contorno sobrepostas para a superfície média posterior do processo latente .
No entanto, existem apenas 70 pares de pontos no conjunto de dados. Suponho que, para produzir um gráfico de contorno, preciso estimar em 70 * 70 pontos. Então, minha pergunta é: como produzo essa superfície mediana posterior? Até agora, tenho amostras de distribuições posteriores para todos os parâmetros envolvidos (usando PyMC) e sei que posso prever em um novo ponto usando a distribuição preditiva posterior. No entanto, não sei como prever valores em um novo ponto . Talvez eu esteja errado e o enredo não tenha sido construído por previsão, mas por interpolação.
ATUALIZAÇÃO :
Primeiro, esta é a mediana da distribuição posterior de em cada local onde há uma propriedade. Isso é baseado no rastreio do MCMC para .
E esta é a interpolação (com um gráfico de contorno) usando uma função de base radial:
(Se você estiver interessado no código, me avise)
Como você pode ver, existem diferenças significativas nas parcelas. Algumas perguntas:
Como posso saber se essas diferenças são explicadas pelo procedimento de interpolação?
Talvez haja variações importantes na distribuição posterior de que calculei e a mostrada no livro. Quanta variação é aceitável entre as simulações do MCMC? Até meus próprios parâmetros mudam um pouco, dependendo da amostra que eu uso (Metropolis, Metropolis Adaptive.)
Existe algum procedimento bayesiano para prever pontos , a fim de gerar um gráfico de contorno, como fiz usando a função de base radial?
fonte
Respostas:
É muito provável que o autor tenha utilizado um processo gaussiano para produzir a interpolação. Eu acho que isso é verdade porque um exercício do livro descreve um problema muito semelhante a este e requer uma trama baseada em um processo gaussiano.
E esta é a interpolação baseada em um processo gaussiano:
Como você pode ver, o método de interpolação faz uma enorme diferença.
fonte