Minha pergunta geral é: por que usar em bayesglm
vez de outros métodos de classificação?
Nota:
- Estou interessado apenas em previsão.
- Eu tenho uma quantidade decente de dados (~ 100.000 obs).
Sinto que o tamanho da amostra é grande o suficiente para que os parâmetros de uma regressão logística regular sejam distribuídos normalmente (CLT). O que eu ganharia especificando anteriores? Meu palpite é que isso só importa para um pequeno conjunto de dados, mas não tenho nenhuma evidência teórica ou aplicada.
bayesian
generalized-linear-model
wcampbell
fonte
fonte
Respostas:
Na engenharia, bem como no gerenciamento de riscos da cadeia de suprimentos, o "conhecimento em engenharia" - ou seja, o melhor palpite para as pessoas instruídas - pode ser o melhor dado que você possui. Por exemplo, a probabilidade de um tsunami ocorrer e interromper a cadeia de suprimentos, sem dados adicionais, pode ser estimada por um especialista no assunto (existem métodos melhores para construir priors). Com o passar do tempo, os tsunamis ocorrem e, como resultado, obtemos mais dados e podemos atualizar nossos anteriores (conhecimento de engenharia) com posteriores (anteriores ajustados para novos dados). Em algum momento, haverá tantos dados que o prior inicial é irrelevante e, independentemente de quem fez a previsão, você terá previsões iguais de probabilidade.
É minha convicção que, se você tiver muitos dados, uma abordagem freqüentista "tradicional" é (normalmente) preferível à abordagem bayesiana (é claro que outros discordarão, especialmente com a escolha entre filosofias estatísticas em vez de se apegar a uma e selecionar um método apropriado). ) Observe que é inteiramente possível (e ocorre com freqüência) que a abordagem freqüentista produza resultados semelhantes / idênticos aos bayesianos.
Dito isto, quando a diferença de métodos é uma linha de código, por que não implementar vários métodos e comparar os resultados você mesmo?
fonte