Modelo de logit Bayesiano - explicação intuitiva?

11

Devo confessar que nunca ouvi falar desse termo em nenhuma das minhas aulas, graduação ou pós-graduação.

O que significa uma regressão logística ser bayesiana? Estou procurando uma explicação com uma transição da logística regular para a logística bayesiana semelhante à seguinte:

Esta é a equação no modelo de regressão linear: .E(y)=β0+β1x1+...+βnxn

Esta é a equação no modelo de regressão logística: . Isso é feito quando y é categórico.ln(E(y)1E(y))=β0+β1x1+...+βnxn

O que fizemos foi alterar para ln ( E ( y )E(y).ln(E(y)1E(y))

Então, o que é feito com o modelo de regressão logística na regressão logística bayesiana? Acho que não tem nada a ver com a equação.

A visualização deste livro parece definir, mas eu realmente não entendo. O que é tudo isso antes, probabilidade? O que é ? Alguém pode explicar essa parte do livro ou o modelo de logit Bayesiano de outra maneira?α

Nota: Isso já foi perguntado antes, mas não respondi muito bem, eu acho.

BCLC
fonte
1
Não quero responder isso porque acho que a @Tim cobriu a maior parte. A única coisa que falta nessa grande resposta é que, na regressão logística bayesiana e nos modelos lineares generalizados bayesianos (GLMs) de maneira mais geral, as distribuições anteriores não são apenas colocadas sobre os coeficientes, mas sobre as variações e covariância desses coeficientes. Isso é incrivelmente importante de mencionar, porque uma das principais vantagens de uma abordagem bayesiana dos GLMs é a maior rastreabilidade de especificar e, em muitos casos, também ajustar modelos complexos para a covariância dos coeficientes.
Equilíbrio Brash
2
@BrashEquilibrium: você está mencionando uma possível extensão hierárquica da modelagem bayesiana padrão para um modelo de logit. No nosso livro , usamos por exemplo um g-prévio sobre o 's, antes que fixa covariância matriz é derivado a partir do co-variáveis X . βX
Xian
1
Justo o suficiente no g anterior.
Equilíbrio Brash
1
Dito isto, ainda há um prior nas covariâncias !!!!!! Se você não discutir isso, não está descrevendo como a regressão logística funciona completamente.
Equilíbrio Brash

Respostas:

19

A regressão logística pode ser descrita como uma combinação linear

η=β0+β1X1+...+βkXk

que é passado através da função de link :g

g(E(Y))=η

onde a função de link é uma função de logit

E(Y|X,β)=p=logit1(η)

onde recebe apenas valores em { 0 , 1 } e as funções inversas de logit transformam a combinação linear η nesse intervalo. É aqui que a regressão logística clássica termina.Y{0,1}η

No entanto, se você lembrar que para variáveis ​​que recebem apenas valores em { 0 , 1 } , que E ( Y | X , β ) pode ser considerado como P ( Y = 1 | X , β ) . Nesse caso, a saída da função logit pode ser considerada como probabilidade condicional de "sucesso", ou seja, P ( Y = 1 | X ,E(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β) . A distribuição de Bernoullié uma distribuição que descreve a probabilidade de observação do resultado binário, com algumparâmetro p , para que possamos descrever Y comoP(Y=1|X,β)pY

yiBernoulli(p)

Assim, com a regressão logística, procuramos alguns parâmetros que combinam com variáveis ​​independentes X e formam uma combinação linear η . Na regressão clássica E ( Y | X , β ) = η (assumimos que a função de link é uma função de identidade), no entanto, para o modelo Y que recebe valores em { 0 , 1 } , precisamos transformar η para que ele se ajuste [ 0 , 1 ] variar.βXηE(Y|X,β)=ηY{0,1}η[0,1]

Agora, para estimar a regressão logística em Bayesian maneira que você pegar alguns priores para parâmetros como com a regressão linear (ver Kruschke et al, 2012 ), em seguida, usar a função logit para transformar a combinação linear η , de modo a utilizar a sua saída como um p parâmetro da distribuição de Bernoulli que descreve sua variável Y Então, sim, você realmente usa a equação e o link logit funcionam da mesma maneira que no caso frequencionista, e o resto funciona (por exemplo, escolhendo anteriores) como na estimativa da regressão linear da maneira bayesiana.βiηpY

A abordagem simples para escolher priors é escolher distribuições normais (mas você também pode usar outras distribuições, por exemplo, distribuição - ou Laplace para um modelo mais robusto) para β i com parâmetros μ i e σ 2 i que são predefinidos ou extraídos de Priores hierárquicos . Agora, com a definição do modelo, você pode usar software como o JAGS para executar a simulação Markov Chain Monte Carlo para estimar o modelo. Abaixo, posto o código JAGS para um modelo logístico simples (veja aqui mais exemplos).tβiμiσi2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Como você pode ver, o código se traduz diretamente na definição do modelo. O que o software faz é que ele extrai alguns valores do Normal anterior para ae b, em seguida, usa esses valores para estimar pe, finalmente, usa a função de probabilidade para avaliar a probabilidade dos seus dados, dados esses parâmetros (é quando você usa o teorema de Bayes, veja aqui para descrição mais detalhada).

O modelo básico de regressão logística pode ser estendido para modelar a dependência entre os preditores usando um modelo hierárquico (incluindo hiperpriors ). Neste caso, você pode desenhar é de distribuição normal multivariada que nos permite incluir informações sobre covariância Σ entre as variáveis independentesβiΣ

(β0β1βk)MVN([μ0μ1μk],[σ02σ0,1σ0,kσ1,0σ12σ1,kσk,0σk,1σk2])

... mas isso está entrando em detalhes, então vamos parar por aqui.

A parte "bayesiana" aqui é escolher anteriores, usando o teorema de Bayes e definindo o modelo em termos probabilísticos. Veja aqui a definição de "modelo bayesiano" e aqui algumas intuições gerais sobre a abordagem bayesiana . O que você também pode notar é que a definição de modelos é bastante direta e flexível com essa abordagem.


Kruschke, JK, Aguinis, H., & Joo, H. (2012). Chegou a hora: métodos bayesianos para análise de dados nas ciências organizacionais. Organizational Research Methods, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Uma distribuição prévia padrão pouco informativa para modelos de regressão logística e outros. The Annals of Applied Statistics, 2 (4), 1360–1383.

Tim
fonte
1
Você precisa de provas para as variações, não apenas os coeficientes.
Equilíbrio Brash
3
gηη=β0+β1X1gE(Y)=η
1
O @BCLC verifica os links na minha resposta, eles fornecem uma introdução às estatísticas bayesianas em geral. Esse é um tópico muito mais amplo que o mencionado na sua pergunta inicial, mas você pode encontrar uma boa introdução nas referências que forneci na minha resposta.
Tim
1
@ Tim eu fiz um erro de digitação lá. As provas devem ler os anteriores. Basicamente, os coeficientes não são os únicos parâmetros desconhecidos. A distribuição multinomial também possui uma matriz de covariância de variância e normalmente não assumimos que ela seja conhecida.
Equilíbrio Brash
3
"A parte" bayesiana "aqui é escolher as anteriores, usando o teorema de Bayes e definindo o modelo em termos probabilísticos". Uma boa referência aqui é Gelman et al. A fracamente INFORMATIVO PADRÃO DE DISTRIBUIÇÃO PRÉVIO PARA A LOGÍSTICA E outros modelos de regressão stat.columbia.edu/~gelman/research/published/priors11.pdf
Dalton Hance
6

O que é tudo isso antes, probabilidade?

É isso que o torna bayesiano. O modelo generativo para os dados é o mesmo; a diferença é que uma análise bayesiana escolhe alguma distribuição anterior para parâmetros de interesse e calcula ou aproxima uma distribuição posterior , na qual toda a inferência se baseia. A regra de Bayes relaciona os dois: O posterior é proporcional aos tempos de probabilidade anteriores.

β

Alguns modelos freqüentistas podem estar relacionados a uma contrapartida bayesiana com um anterior específico, embora eu não tenha certeza do que corresponde neste caso.

Sean Easter
fonte
βββ1,β2,...,βnX1X2Xnβ
1
@BCLC Para responder a isso, vou começar com o processo simples de inferência bayesiana e definir os termos da seguinte maneira: os bayesianos tratam todos os parâmetros de interesse como variáveis ​​aleatórias e atualizam suas crenças sobre esses parâmetros à luz dos dados. A distribuição anterior expressa sua crença sobre os parâmetros antes de analisar os dados; a * distribuição posterior * - pela regra de Bayes, o produto normalizado do anterior e do provável - resume a crença incerta sobre os parâmetros à luz do anterior e dos dados. O cálculo da parte posterior é onde o ajuste ocorre.
Sean Páscoa
1
βpp
Ok, acho que o entendi melhor depois de ler Um ensaio para resolver um problema na Doutrina das Oportunidades . Obrigado SeanEster
BCLC
1
P(B)