Por que usar bayesglm?

8

Minha pergunta geral é: por que usar em bayesglmvez de outros métodos de classificação?

Nota:

  1. Estou interessado apenas em previsão.
  2. Eu tenho uma quantidade decente de dados (~ 100.000 obs).

Sinto que o tamanho da amostra é grande o suficiente para que os parâmetros de uma regressão logística regular sejam distribuídos normalmente (CLT). O que eu ganharia especificando anteriores? Meu palpite é que isso só importa para um pequeno conjunto de dados, mas não tenho nenhuma evidência teórica ou aplicada.

wcampbell
fonte
4
Sua intuição sobre o relacionamento entre o tamanho da amostra e os anteriores está correta. Por outro lado, a regressão logística bayesiana pode resolver o problema de infinitas estimativas de parâmetros resultantes da separação perfeita.
Sycorax diz Reinstate Monica
1
A regressão logística não é um algoritmo de classificação. É um algoritmo de previsão de probabilidade.
Equilíbrio Brash
1
O que o Sycorax menciona é um dos motivos mais importantes pelos quais você deseja usar um modelo bayesiano em um cenário de amostra grande. Se a sua regressão logística tiver muitos preditores, especialmente preditores com baixa variação, considere ter antecedentes sobre os coeficientes de regressão.
Equilíbrio Brash

Respostas:

8

Na engenharia, bem como no gerenciamento de riscos da cadeia de suprimentos, o "conhecimento em engenharia" - ou seja, o melhor palpite para as pessoas instruídas - pode ser o melhor dado que você possui. Por exemplo, a probabilidade de um tsunami ocorrer e interromper a cadeia de suprimentos, sem dados adicionais, pode ser estimada por um especialista no assunto (existem métodos melhores para construir priors). Com o passar do tempo, os tsunamis ocorrem e, como resultado, obtemos mais dados e podemos atualizar nossos anteriores (conhecimento de engenharia) com posteriores (anteriores ajustados para novos dados). Em algum momento, haverá tantos dados que o prior inicial é irrelevante e, independentemente de quem fez a previsão, você terá previsões iguais de probabilidade.

É minha convicção que, se você tiver muitos dados, uma abordagem freqüentista "tradicional" é (normalmente) preferível à abordagem bayesiana (é claro que outros discordarão, especialmente com a escolha entre filosofias estatísticas em vez de se apegar a uma e selecionar um método apropriado). ) Observe que é inteiramente possível (e ocorre com freqüência) que a abordagem freqüentista produza resultados semelhantes / idênticos aos bayesianos.

Dito isto, quando a diferença de métodos é uma linha de código, por que não implementar vários métodos e comparar os resultados você mesmo?

TLJ
fonte
Obrigado! Boa explicação de alguns aspectos do pensamento bayesiano - não é algo com o qual estou muito familiarizado.
Wcampbell 23/10