Meu entendimento do debate bayesiano x frequentista é que as estatísticas freqüentistas:
- é (ou afirma ser) objetivo
- ou pelo menos imparcial
- pesquisadores tão diferentes, usando suposições diferentes ainda podem obter resultados quantitativamente comparáveis
enquanto estatísticas bayesianas
- afirma fazer previsões "melhores" (ou seja, menor perda esperada), porque pode usar conhecimento prévio (entre outros motivos)
- precisa de menos opções "ad hoc", substituindo-as por escolhas anteriores / modelo que (pelo menos em princípio) tenham uma interpretação do mundo real.
Dado isso, eu esperava que as estatísticas bayesianas fossem muito populares no SPC: se eu fosse proprietário de uma fábrica tentando controlar a qualidade do meu processo, me preocuparia principalmente com a perda esperada; Se eu pudesse reduzir isso, porque tenho mais / melhor conhecimento prévio do que meus concorrentes, ainda melhor.
Mas praticamente tudo o que li sobre o CPE parece ser firmemente freqüentador (ou seja, sem distribuições anteriores, estimativas pontuais de todos os parâmetros, muitas opções ad-hoc sobre tamanho da amostra, valores-p etc.)
Por que é que? Percebo por que as estatísticas freqüentistas foram uma escolha melhor nos anos 60, quando o CEP era feito com papel e caneta. Mas por que ninguém tentou métodos diferentes desde então?
fonte
Respostas:
AVISO Escrevi esta resposta há muito tempo, com muito pouca ideia do que estava falando. Não posso excluí-lo porque ele foi aceito, mas não posso apoiar a maior parte do conteúdo.
Esta é uma resposta muito longa e espero que seja útil de alguma forma. O CEP não é minha área, mas acho que esses comentários são gerais o suficiente para serem aplicados aqui.
Eu argumentaria que a vantagem mais citada - a capacidade de incorporar crenças anteriores - é uma vantagem fraca aplicada / campos empíricos. Isso porque você precisa quantificar seu prior. Mesmo que eu possa dizer "bem, o nível z é definitivamente implausível", eu não posso lhe dizer o que deve acontecer abaixo de z. A menos que os autores comecem a publicar seus dados brutos em massa, minhas melhores suposições para os anteriores são momentos condicionais extraídos de trabalhos anteriores que podem ou não ter sido ajustados em condições semelhantes às que você está enfrentando.
Basicamente, as técnicas bayesianas (pelo menos em um nível conceitual) são excelentes para quando você tem uma forte suposição / idéia / modelo e deseja levá-la aos dados, para ver como está errado ou não. Mas muitas vezes você não está olhando para ver se está certo sobre um modelo específico para o seu processo de negócios; mais provavelmente você não temmodelo e estão olhando para ver o que seu processo fará. Você não quer tirar suas conclusões, quer que seus dados tirem suas conclusões. Se você tiver dados suficientes, é o que acontecerá de qualquer maneira, mas nesse caso, por que se preocupar com o anterior? Talvez isso seja excessivamente cético e avesso a riscos, mas nunca ouvi falar de um empresário otimista que também teve sucesso. Não há como quantificar sua incerteza sobre suas próprias crenças, e você prefere não correr o risco de ficar confiante demais na coisa errada. Então você define um prior não informativo e a vantagem desaparece.
Isso é interessante no caso da SPC porque, diferentemente do marketing digital, por exemplo, seus processos de negócios não estão para sempre em um estado imprevisível de fluxo. Minha impressão é que os processos de negócios tendem a mudar deliberada e incrementalmente. Ou seja, você tem muito tempo para criar priores bons e seguros. Mas lembre-se de que os anteriores se referem à propagação da incerteza. Subjetividade à parte, o bayesianismo tem a vantagem de propagar objetivamente a incerteza em processos de geração de dados profundamente aninhados. Para mim, é realmente para isso que serve a estatística bayesiana. E se você está procurando a confiabilidade do seu processo muito além do limite de "significância" de 1 em 20, parece que você gostaria de levar em conta a maior incerteza possível.
Então, onde estão os modelos bayesianos? Primeiro, eles são difíceis de implementar. Para ser franco, posso ensinar a OLS a um engenheiro mecânico em 15 minutos e fazer com que ele faça regressões e testes t no Matlab em outro 5. Para usar o Bayes, primeiro preciso decidir que tipo de modelo estou ajustando, e veja se há uma biblioteca pronta para ele em um idioma que alguém da minha empresa conhece. Caso contrário, eu tenho que usar BUGS ou Stan. E então eu tenho que executar simulações para obter uma resposta básica, e isso leva cerca de 15 minutos em uma máquina i7 de 8 núcleos. Tanto para prototipagem rápida. E segundo, quando obtém uma resposta, você passa duas horas codificando e aguardando, apenas para obter o mesmo resultado que poderia obter com efeitos aleatórios freqüentes com erros padrão em cluster. Talvez tudo isso seja presunçoso e mal-intencionado e eu não entenda o SPC.
Comparo o bayesianismo a uma faca de chef de alta qualidade, uma panela e uma panela refogada ; o frequentismo é como uma cozinha cheia de ferramentas como assistidas na TV, como cortadores de banana e panelas com furos na tampa para facilitar a drenagem . Se você é um cozinheiro experiente, com muita experiência na cozinha - na verdade, na sua própria cozinha, com conhecimento substantivo, que é limpo e organizado e você sabe onde tudo está localizado -, você pode fazer coisas incríveis com sua pequena seleção de ferramentas elegantes e de alta qualidade. Ou então, você pode usar várias pequenas ferramentas ad-hoc *, que requerem zero habilidade para usar, para fazer uma refeição simples, não muito ruim e com alguns sabores básicos que esclarecem a questão. Você acabou de chegar das minas de dados e está com fome de resultados; qual cozinheiro você é?
* Bayes é tão ad-hoc, mas menos transparente . Quanto vinho entra no seu coq au vin? Não faço ideia, você olha porque é um profissional. Ou você não pode dizer a diferença entre um Pinot Grigio e um Pinot Noir, mas a primeira receita do Epicurious disse usar 2 xícaras de vermelho, então é isso que você fará. Qual deles é mais "ad-hoc?"
fonte
Na minha humilde opinião, as estatísticas bayesianas sofrem alguns inconvenientes que conflitam com seu uso generalizado (no CEP, mas também em outros setores de pesquisa):
É mais difícil obter estimativas do que sua contraparte freqüentista (a maior parte das classes de estatística adota a abordagem freqüentista. A propósito, seria interessante investigar se essa é a causa ou o efeito da popularidade limitada das estatísticas bayesianas )
Muitas vezes, as estatísticas bayesianas impõem escolhas sobre diferentes maneiras de lidar com o mesmo problema (por exemplo, qual é o melhor anterior?), E não apenas clicar e ver (de qualquer forma, essa abordagem também não deve ser incentivada sob a estrutura freqüentadora).
A estatística bayesiana tem alguns tópicos que são difíceis de gerenciar por estatísticos menos experientes (por exemplo, antecedentes impróprios );
Requer análises de sensibilidade (geralmente evitadas sob a estrutura freqüentista) e exceções feitas para alguns tópicos, como análise de dados ausentes.
Ele possui apenas um software (louvávelmente, disponível para download gratuito) disponível para cálculo.
Ele leva mais tempo para ser um pesquisador autônomo com Bayesian que com ferramentas freqüentista.
fonte
Uma razão é que as estatísticas bayesianas foram congeladas do mainstream até por volta de 1990. Quando eu estudava estatística na década de 1970, era quase uma heresia (não em todos os lugares, mas na maioria dos programas de pós-graduação). Não ajudou que a maioria dos problemas interessantes fosse intratável. Como resultado, quase todo mundo que está ensinando estatística hoje (e revisando artigos para periódicos e projetando currículos) é treinado como freqüentador. As coisas começaram a mudar por volta de 1990, com a popularização dos métodos de Markov Chain Monte Carlo (MCMC), que estão gradualmente chegando a pacotes como SAS e Stata. Pessoalmente, acho que eles serão muito mais comuns em 10 anos, embora em aplicativos especializados (SPC) eles possam não ter muita vantagem.
Um grupo que está trabalhando para tornar a análise bayesiana mais amplamente disponível é o grupo que desenvolve o pacote STAN (mc-stan.org).
fonte