Pelo que li e pelas respostas a outras perguntas que fiz aqui, muitos dos chamados métodos freqüentadores correspondem matematicamente ( não me importo se eles correspondem filosoficamente , apenas me importo se corresponde matematicamente) a casos especiais dos chamados Métodos bayesianos (para aqueles que se opõem a isso, veja a nota na parte inferior desta pergunta). Esta resposta a uma pergunta relacionada (não a minha) apóia esta conclusão:
A maioria dos métodos freqüentistas tem um equivalente bayesiano que, na maioria das circunstâncias, dará essencialmente o mesmo resultado.
Observe que, a seguir, ser matematicamente o mesmo significa dar o mesmo resultado. Se você caracterizar dois métodos que podem sempre provar os mesmos resultados de serem "diferentes", esse é seu direito, mas esse é um julgamento filosófico, não matemático nem prático.
Muitas pessoas que se auto-descrevem como "bayesianas", no entanto, parecem rejeitar o uso da estimativa de máxima verossimilhança em qualquer circunstância, mesmo que seja um caso especial de métodos bayesianos ( matematicamente ), porque é um "método frequentista". Aparentemente, os bayesianos também usam um número restrito / limitado de distribuições em comparação com os freqüentadores, mesmo que essas distribuições também sejam matematicamente corretas do ponto de vista bayesiano.
Pergunta: Quando e por que os bayesianos rejeitam métodos matematicamente corretos do ponto de vista bayesiano? Existe alguma justificativa para isso que não seja "filosófica"?
Antecedentes / Contexto: A seguir, citações de respostas e comentários de uma pergunta anterior sobre CrossValidated :
A base matemática para o debate bayesiano x freqüentista é muito simples. Nas estatísticas bayesianas, o parâmetro desconhecido é tratado como uma variável aleatória; nas estatísticas frequentistas é tratado como um elemento fixo ...
Pelo exposto, eu teria concluído que ( matematicamente falando ) os métodos bayesianos são mais gerais que os freqüentistas, no sentido de que os modelos freqüentistas satisfazem todas as mesmas suposições matemáticas que os bayesianos, mas não vice-versa. No entanto, a mesma resposta argumentou que minha conclusão acima foi incorreta (a ênfase no que segue é minha):
Embora a constante seja um caso especial de uma variável aleatória, eu hesitaria em concluir que o bayesianismo é mais geral. Você não obteria resultados freqüentes dos bayesianos simplesmente recolhendo a variável aleatória para uma constante. A diferença é mais profunda ...
Indo para preferências pessoais ... Não gosto que as estatísticas bayesianas usem um subconjunto bastante restrito de distribuições disponíveis.
Outro usuário, em sua resposta, afirmou o contrário, que os métodos bayesianos são mais gerais, embora, por incrível que pareça, a melhor razão para encontrar por que esse poderia ser o caso estava na resposta anterior, dada por alguém treinado como freqüentador.
A consequência matemática é que os freqüentistas pensam que as equações básicas de probabilidade apenas se aplicam às vezes, e os bayesianos pensam que sempre se aplicam. Então eles vêem as mesmas equações como corretas, mas diferem em quão gerais são ... Bayesiano é estritamente mais geral que Frequentista. Como pode haver incerteza sobre qualquer fato, qualquer fato pode ser atribuído a uma probabilidade. Em particular, se os fatos em que você está trabalhando estão relacionados às frequências do mundo real (como algo que você está prevendo ou faz parte dos dados), os métodos bayesianos podem considerá-los e usá-los da mesma maneira que usariam qualquer outro fato do mundo real. Consequentemente, qualquer problema que os freqüentistas consideram que seus métodos se aplicam aos bayesianos também pode funcionar naturalmente.
A partir das respostas acima, tenho a impressão de que há pelo menos duas definições diferentes do termo Bayesiano comumente usadas. O primeiro eu chamaria de "matematicamente bayesiano", que abrange todos os métodos estatísticos, uma vez que inclui parâmetros que são RVs constantes e aqueles que não são RVs constantes. Depois, há "culturalmente bayesiano" que rejeita alguns métodos "matematicamente bayesianos" porque esses métodos são "freqüentistas" (isto é, por animosidade pessoal ao parâmetro, às vezes sendo modelado como constante ou frequência). Outra resposta para a pergunta acima mencionada também parece apoiar esta conjectura:
Também é importante notar que existem muitas divisões entre os modelos usados pelos dois campos, que estão mais relacionadas ao que foi feito do que ao que pode ser feito (ou seja, muitos modelos tradicionalmente usados por um campo podem ser justificados pelo outro campo. )
Portanto, acho que outra maneira de expressar minha pergunta seria a seguinte: Por que os bayesianos culturais se chamam bayesianos se rejeitam muitos métodos matematicamente bayesianos? E por que eles rejeitam esses métodos matematicamente bayesianos? É animosidade pessoal para as pessoas que mais frequentemente usam esses métodos específicos?
Editar: Dois objetos são equivalentes em sentido matemático se tiverem as mesmas propriedades , independentemente de como são construídos. Por exemplo, posso pensar em pelo menos cinco maneiras diferentes de construir a unidade imaginária . No entanto, não há pelo menos cinco "escolas de pensamento" diferentes sobre o estudo de números imaginários; de fato, acredito que só existe um, que é o grupo que estuda suas propriedades. Para aqueles que objetam que obter uma estimativa pontual usando a máxima probabilidade não é o mesmo que obter uma estimativa pontual usando o máximo a priori e um uniforme anterior porque os cálculos envolvidos são diferentes, eu admito que eles são diferentes em um sentido filosófico , mas para na medida em que eles semprefornecer os mesmos valores para a estimativa, eles são matematicamente equivalentes, porque eles têm as mesmas propriedades . Talvez a diferença filosófica seja relevante para você pessoalmente, mas não é relevante para esta questão.
Nota: Esta questão originalmente tinha uma caracterização incorreta da estimativa do MLE e do MAP com um uniforme anterior.
fonte
Respostas:
Gostaria de corrigir uma suposição errônea no post original, um erro que é relativamente comum. O OP diz:
E a nota na parte inferior do post diz:
Minha objeção é que, à parte a filosofia, a estimativa de máxima verossimilhança (MLE) e a estimativa máxima a posteriori (PAM) não têm as mesmas propriedades matemáticas.
Fundamentalmente, o MLE e o MAP se transformam diferentemente sob reparametrização (não linear) do espaço. Isso acontece porque o MLE tem um "flat prior" em todas as parametrizações, enquanto o MAP não (o prior se transforma como uma densidade de probabilidade , então existe um termo jacobiano).
A definição de um objeto matemático inclui como o objeto se comporta sob operadores, como a transformação de variáveis (por exemplo, consulte a definição de um tensor ).
Em conclusão, MLE e MAP não são a mesma coisa, nem filosoficamente nem matematicamente; isso não é uma opinião.
fonte
Pessoalmente, sou um "pragmatista" e não um "freqüentista" ou um "bayesiano"; portanto, não posso afirmar que falo por nenhum campo.
Dito isso, acho que a distinção a que você está se referindo provavelmente não é tanto MLE x MAP, mas entre estimativas pontuais e estimativas de PDFs posteriores . Como cientista trabalhando em um campo com dados esparsos e grandes incertezas, posso simpatizar por não querer confiar demais nos resultados da "melhor estimativa" que podem ser enganosos, resultando em excesso de confiança.
Uma distinção prática relacionada é entre métodos paramétricos e não paramétricos . Então, por exemplo, acho que tanto a filtragem de Kalman quanto a filtragem de partículas seriam aceitas como estimativa bayesiana recursiva . Mas a suposição gaussiana de filtragem de Kalman (um método paramétrico) pode dar resultados muito enganosos se o posterior não for unimodal. Para mim, esses tipos de exemplos de engenharia destacam onde as diferenças não são filosóficas nem matemáticas, mas se manifestam em termos de resultados práticos (ou seja, seu veículo autônomo falhará?). Para os entusiastas bayesianos com os quais estou familiarizado, essa atitude no estilo de engenharia "veja o que funciona" parece ser predominante ... não tenho certeza se isso é verdade de maneira mais ampla.
fonte
Essas pessoas rejeitariam o MLE como um método geral para fazer estimativas pontuais. Em casos particulares em que eles tinham motivos para usar um uniforme anterior e queriam fazer uma estimativa máxima a posteriori, eles não se incomodariam com a coincidência de seus cálculos com o MLE.
Talvez às vezes, para facilitar seus cálculos, mas não a partir de qualquer ponto de princípio.
Certamente há distinções a serem feitas entre diferentes abordagens da inferência bayesiana, mas não esta. Se existe um sentido em que o bayesianismo é mais geral, está disposto a aplicar o conceito de probabilidade à incerteza epistêmica sobre os valores dos parâmetros e não apenas à incerteza aleatória do processo de geração de dados, com o que o freqüentismo se preocupa. Inferência freqüentista não é um caso especial de inferência bayesiana e nenhuma das respostas ou comentários em Existe alguma base matemática para o debate bayesiano x freqüentista?estão implicando que é. Se, em uma abordagem bayesiana, você considerasse o parâmetro uma variável aleatória constante, obteria o mesmo posterior, independentemente dos dados - e dizer que é constante, mas você não sabe que valor é necessário não dizer nada vale a pena dizer. A abordagem freqüentista adota uma abordagem totalmente diferente e não envolve o cálculo das distribuições posteriores.
fonte