Quando (e por que) os bayesianos rejeitam métodos bayesianos válidos? [fechadas]

Pelo que li e pelas respostas a outras perguntas que fiz aqui, muitos dos chamados métodos freqüentadores correspondem matematicamente ( não me importo se eles correspondem filosoficamente , apenas me importo se corresponde matematicamente) a casos especiais dos chamados Métodos bayesianos (para aqueles que se opõem a isso, veja a nota na parte inferior desta pergunta). Esta resposta a uma pergunta relacionada (não a minha) apóia esta conclusão:

A maioria dos métodos freqüentistas tem um equivalente bayesiano que, na maioria das circunstâncias, dará essencialmente o mesmo resultado.

Observe que, a seguir, ser matematicamente o mesmo significa dar o mesmo resultado. Se você caracterizar dois métodos que podem sempre provar os mesmos resultados de serem "diferentes", esse é seu direito, mas esse é um julgamento filosófico, não matemático nem prático.

Muitas pessoas que se auto-descrevem como "bayesianas", no entanto, parecem rejeitar o uso da estimativa de máxima verossimilhança em qualquer circunstância, mesmo que seja um caso especial de métodos bayesianos ( matematicamente ), porque é um "método frequentista". Aparentemente, os bayesianos também usam um número restrito / limitado de distribuições em comparação com os freqüentadores, mesmo que essas distribuições também sejam matematicamente corretas do ponto de vista bayesiano.

Pergunta: Quando e por que os bayesianos rejeitam métodos matematicamente corretos do ponto de vista bayesiano? Existe alguma justificativa para isso que não seja "filosófica"?

Antecedentes / Contexto: A seguir, citações de respostas e comentários de uma pergunta anterior sobre CrossValidated :

A base matemática para o debate bayesiano x freqüentista é muito simples. Nas estatísticas bayesianas, o parâmetro desconhecido é tratado como uma variável aleatória; nas estatísticas frequentistas é tratado como um elemento fixo ...

Pelo exposto, eu teria concluído que ( matematicamente falando ) os métodos bayesianos são mais gerais que os freqüentistas, no sentido de que os modelos freqüentistas satisfazem todas as mesmas suposições matemáticas que os bayesianos, mas não vice-versa. No entanto, a mesma resposta argumentou que minha conclusão acima foi incorreta (a ênfase no que segue é minha):

Embora a constante seja um caso especial de uma variável aleatória, eu hesitaria em concluir que o bayesianismo é mais geral. Você não obteria resultados freqüentes dos bayesianos simplesmente recolhendo a variável aleatória para uma constante. A diferença é mais profunda ...

Indo para preferências pessoais ... Não gosto que as estatísticas bayesianas usem um subconjunto bastante restrito de distribuições disponíveis.

Outro usuário, em sua resposta, afirmou o contrário, que os métodos bayesianos são mais gerais, embora, por incrível que pareça, a melhor razão para encontrar por que esse poderia ser o caso estava na resposta anterior, dada por alguém treinado como freqüentador.

A consequência matemática é que os freqüentistas pensam que as equações básicas de probabilidade apenas se aplicam às vezes, e os bayesianos pensam que sempre se aplicam. Então eles vêem as mesmas equações como corretas, mas diferem em quão gerais são ... Bayesiano é estritamente mais geral que Frequentista. Como pode haver incerteza sobre qualquer fato, qualquer fato pode ser atribuído a uma probabilidade. Em particular, se os fatos em que você está trabalhando estão relacionados às frequências do mundo real (como algo que você está prevendo ou faz parte dos dados), os métodos bayesianos podem considerá-los e usá-los da mesma maneira que usariam qualquer outro fato do mundo real. Consequentemente, qualquer problema que os freqüentistas consideram que seus métodos se aplicam aos bayesianos também pode funcionar naturalmente.

A partir das respostas acima, tenho a impressão de que há pelo menos duas definições diferentes do termo Bayesiano comumente usadas. O primeiro eu chamaria de "matematicamente bayesiano", que abrange todos os métodos estatísticos, uma vez que inclui parâmetros que são RVs constantes e aqueles que não são RVs constantes. Depois, há "culturalmente bayesiano" que rejeita alguns métodos "matematicamente bayesianos" porque esses métodos são "freqüentistas" (isto é, por animosidade pessoal ao parâmetro, às vezes sendo modelado como constante ou frequência). Outra resposta para a pergunta acima mencionada também parece apoiar esta conjectura:

Também é importante notar que existem muitas divisões entre os modelos usados pelos dois campos, que estão mais relacionadas ao que foi feito do que ao que pode ser feito (ou seja, muitos modelos tradicionalmente usados por um campo podem ser justificados pelo outro campo. )

Portanto, acho que outra maneira de expressar minha pergunta seria a seguinte: Por que os bayesianos culturais se chamam bayesianos se rejeitam muitos métodos matematicamente bayesianos? E por que eles rejeitam esses métodos matematicamente bayesianos? É animosidade pessoal para as pessoas que mais frequentemente usam esses métodos específicos?

Editar: Dois objetos são equivalentes em sentido matemático se tiverem as mesmas propriedades , independentemente de como são construídos. Por exemplo, posso pensar em pelo menos cinco maneiras diferentes de construir a unidade imaginária . No entanto, não há pelo menos cinco "escolas de pensamento" diferentes sobre o estudo de números imaginários; de fato, acredito que só existe um, que é o grupo que estuda suas propriedades. Para aqueles que objetam que obter uma estimativa pontual usando a máxima probabilidade não é o mesmo que obter uma estimativa pontual usando o máximo a priori e um uniforme anterior porque os cálculos envolvidos são diferentes, eu admito que eles são diferentes em um sentido filosófico , mas para na medida em que eles sempre $i$ fornecer os mesmos valores para a estimativa, eles são matematicamente equivalentes, porque eles têm as mesmas propriedades . Talvez a diferença filosófica seja relevante para você pessoalmente, mas não é relevante para esta questão.

Nota: Esta questão originalmente tinha uma caracterização incorreta da estimativa do MLE e do MAP com um uniforme anterior.

bayesian frequentist philosophical Chill2Macht
fonte

(-1) Esta questão é baseada em suposições falsas. O MLE não corresponde a 'usar uniforme anterior', mas a usar uniforme anterior e selecionar o modo da distribuição posterior (portanto, MAP com uniforme anterior). Ao usar o MLE, o parâmetro não é considerado uma variável aleatória; portanto, construções como ou integrais sobre não são matematicamente significativas.

P r (θ \in [0, 1] ∣ y)

$Pr(\theta \in [0,1] \mid y)$

θ ∣ y

$\theta \mid y$

Juho Kokkala

Não recordo nenhum bayesiano que rejeite algo que não seja bayesiano por nome ou que use número limitado de distribuições. Pode-se facilmente substituir "bayesianos" por "frequentistas" em sua pergunta e perguntar por que os freqüentadores rejeitam tudo o que não é freqüentador e por que eles usam um número limitado de distribuições (basicamente, distribuição normal em todos os lugares) - a pergunta resultante seria o mesmo mal definido que o seu. Também concordo com @JuhoKokkala que MLE usava uniforme antes, mesmo que suas estimativas pontuais possam corresponder.

\neq

$\neq$

Tim

MLE e MAP não possuem as mesmas propriedades matemáticas. Se você reparametrizar suas variáveis, o MLE e o MAP se transformarão de maneira diferente (porque o MLE tem um "flat prior" em todas as parametrizações, o MAP não). A definição de um objeto matemático inclui como o objeto se comporta sob operadores, como transformação de variáveis (por exemplo, consulte a definição de tensor). Então eles não são a mesma coisa.

lacerbi

Vou fazer uma resposta (curta), já que é surpreendente que ninguém tenha mencionado isso até agora. Eu também tive que explicar muitas vezes no passado, já que é uma sutileza que pode ser facilmente esquecida.

lacerbi

Você já jogou rascunhos com um jogo de xadrez? Ocasionalmente, pode acontecer que você se encontre em uma posição válida no xadrez e faça uma jogada de xadrez legal que também é uma jogada de rascunhos legais. É claro que o que seria uma boa jogada de xadrez nem sempre será uma boa jogada de draft. E você não evitará fazer um bom movimento de rascunho apenas porque também é um movimento de xadrez. Isto é bastante diferente de descrever um jogo de xadrez em francês ao invés de Inglês, ou de girar a placa de modo que quadrados pretos tornam-se brancas ou trocar as posições iniciais e regras que regem a ...

Scortchi - Reintegrar Monica

Respostas:

Gostaria de corrigir uma suposição errônea no post original, um erro que é relativamente comum. O OP diz:

Pelo que li e pelas respostas a outras perguntas que fiz aqui, a estimativa da máxima probabilidade corresponde matematicamente (não me importo se corresponde filosoficamente, apenas me importo se corresponde matematicamente) à estimativa máxima a priori usando um uniforme anterior ( para aqueles que se opõem a isso, veja a nota na parte inferior desta pergunta).

E a nota na parte inferior do post diz:

Dois objetos são equivalentes em sentido matemático se tiverem as mesmas propriedades, independentemente de como são construídos. [...]

Minha objeção é que, à parte a filosofia, a estimativa de máxima verossimilhança (MLE) e a estimativa máxima a posteriori (PAM) não têm as mesmas propriedades matemáticas.

Fundamentalmente, o MLE e o MAP se transformam diferentemente sob reparametrização (não linear) do espaço. Isso acontece porque o MLE tem um "flat prior" em todas as parametrizações, enquanto o MAP não (o prior se transforma como uma densidade de probabilidade , então existe um termo jacobiano).

A definição de um objeto matemático inclui como o objeto se comporta sob operadores, como a transformação de variáveis (por exemplo, consulte a definição de um tensor ).

Em conclusão, MLE e MAP não são a mesma coisa, nem filosoficamente nem matematicamente; isso não é uma opinião.

lacerbi
fonte

Eu acho que talvez eu tenha perdido o seu ponto. É possível parametrizar um modelo de modo que as estimativas pontuais do MLE não sejam iguais às do MAP com um uniforme anterior? (Claramente, no caso do MAP, o prioritário deve ser uniforme com relação à parametrização atual para que a igualdade funcione. Se você remametrizar o modelo sem alterar o prioritário, ele geralmente não será mais uniforme.)

Kodiologist

@ Kodiologist: o OP estava declarando que MAP e MLE são "objetos matemáticos" idênticos. Eles não são. Objetos matemáticos distintos podem ser iguais em um subespaço (por exemplo, em uma dada parametrização), mas isso não os torna idênticos. Você poderia dizer "eu não me importo com outras parametrizações", mas, bem, então você está impondo uma forte restrição prática, não é mais "apenas" um ponto filosófico, como o OP originalmente estava argumentando.

lacerbi

Pessoalmente, sou um "pragmatista" e não um "freqüentista" ou um "bayesiano"; portanto, não posso afirmar que falo por nenhum campo.

Dito isso, acho que a distinção a que você está se referindo provavelmente não é tanto MLE x MAP, mas entre estimativas pontuais e estimativas de PDFs posteriores . Como cientista trabalhando em um campo com dados esparsos e grandes incertezas, posso simpatizar por não querer confiar demais nos resultados da "melhor estimativa" que podem ser enganosos, resultando em excesso de confiança.

Uma distinção prática relacionada é entre métodos paramétricos e não paramétricos . Então, por exemplo, acho que tanto a filtragem de Kalman quanto a filtragem de partículas seriam aceitas como estimativa bayesiana recursiva . Mas a suposição gaussiana de filtragem de Kalman (um método paramétrico) pode dar resultados muito enganosos se o posterior não for unimodal. Para mim, esses tipos de exemplos de engenharia destacam onde as diferenças não são filosóficas nem matemáticas, mas se manifestam em termos de resultados práticos (ou seja, seu veículo autônomo falhará?). Para os entusiastas bayesianos com os quais estou familiarizado, essa atitude no estilo de engenharia "veja o que funciona" parece ser predominante ... não tenho certeza se isso é verdade de maneira mais ampla.

GeoMatt22
fonte

Se o ruído é modelado gaussiano ou de outra distribuição, não é o que determina se um método é paramétrico ou não paramétrico.

Cliff AB

Eu estava pensando em filtragem de partículas vs. filtragem de Kalman.

GeoMatt22

@CliffAB Eu editei a minha resposta para corrigir esperançosamente a implicação não intencional que "Gaussian <==> paramétrico"

GeoMatt22

Na minha experiência (nem um pouco abrangente!), Os livros destinados a engenheiros em áreas "técnicas" tendem a ser mais assim. Coisas como robótica e outras aplicações robustas em tempo real tendem a descobrir rapidamente quando as coisas não estão funcionando. Provavelmente é nominalmente mais bayesiano, mas a Robótica Probabilística de Sebastian Thrun foi esclarecedora para mim. Ele é o cara da Udacity .

GeoMatt22

Ainda não estudei essa área, mas minha impressão é que grande parte da Engenharia de Confiabilidade clássica usa abordagens "freqüentistas", portanto essa também pode ser uma área com textos pragmáticos?

GeoMatt22

Muitas pessoas que se auto-descrevem como "bayesianas", no entanto, parecem rejeitar o uso da estimativa de máxima verossimilhança em qualquer circunstância, mesmo que seja um caso especial de métodos bayesianos (matematicamente), porque é um "método frequentista".

Essas pessoas rejeitariam o MLE como um método geral para fazer estimativas pontuais. Em casos particulares em que eles tinham motivos para usar um uniforme anterior e queriam fazer uma estimativa máxima a posteriori, eles não se incomodariam com a coincidência de seus cálculos com o MLE.

Aparentemente, os bayesianos também usam um número restrito / limitado de distribuições em comparação com os freqüentadores, mesmo que essas distribuições também sejam matematicamente corretas do ponto de vista bayesiano.

Talvez às vezes, para facilitar seus cálculos, mas não a partir de qualquer ponto de princípio.

Tenho a impressão de que há pelo menos duas definições diferentes do termo Bayesiano comumente usadas. O primeiro eu chamaria de "matematicamente bayesiano", que abrange todos os métodos estatísticos, uma vez que inclui parâmetros que são RVs constantes e aqueles que não são RVs constantes. Depois, há "culturalmente bayesiano" que rejeita alguns métodos "matematicamente bayesianos" porque esses métodos são "freqüentistas" (isto é, por animosidade pessoal ao parâmetro, às vezes sendo modelado como constante ou frequência).

Certamente há distinções a serem feitas entre diferentes abordagens da inferência bayesiana, mas não esta. Se existe um sentido em que o bayesianismo é mais geral, está disposto a aplicar o conceito de probabilidade à incerteza epistêmica sobre os valores dos parâmetros e não apenas à incerteza aleatória do processo de geração de dados, com o que o freqüentismo se preocupa. Inferência freqüentista não é um caso especial de inferência bayesiana e nenhuma das respostas ou comentários em Existe alguma base matemática para o debate bayesiano x freqüentista?estão implicando que é. Se, em uma abordagem bayesiana, você considerasse o parâmetro uma variável aleatória constante, obteria o mesmo posterior, independentemente dos dados - e dizer que é constante, mas você não sabe que valor é necessário não dizer nada vale a pena dizer. A abordagem freqüentista adota uma abordagem totalmente diferente e não envolve o cálculo das distribuições posteriores.

Scortchi - Restabelecer Monica
fonte

"A abordagem freqüentista adota uma abordagem totalmente diferente e não envolve o cálculo das distribuições posteriores" - esse não é o meu ponto. Não estou falando de intenção filosófica, estou falando de equivalência matemática. Alguém poderia dizer que é um "subtrativista" porque apenas adiciona e subtrai números positivos, mas se recusa a usar números negativos, o que é "negativista". Filosoficamente, esse pode ser o caso, mas matematicamente falando, subtrair um número positivo é a mesma coisa que adicionar um número negativo.

precisa saber é o seguinte

O que estou tentando dizer é que "matematicamente bayesiano" aplicaria e não aplicaria o conceito de probabilidade à incerteza epistêmica sobre os valores dos parâmetros. "Culturalmente bayesiano" seria apenas aplicar (e nunca nunca aplicar) o conceito de probabilidade à incerteza epistêmica sobre os valores dos parâmetros. "Frequentista" seria apenas não aplicar (e nunca aplicar) probabilidade à incerteza epistêmica sobre os valores dos parâmetros. O que estou dizendo é que "inferência bayesiana = culturalmente bayesiana" e "freqüentista" parecem um caso especial baseado no que as pessoas estão dizendo.

precisa saber é o seguinte

De qualquer forma, acho que vou tentar ler as estatísticas assintóticas de van der Vaart antes de comentar mais sobre as estatísticas freqüentistas, mas, depois de já ter lido Casella e Berger e zero livros Bayesianos, não entendo a afirmação de que "a abordagem freqüentista adota uma abordagem totalmente diferente" de aplicando o conceito de probabilidade a "apenas a incerteza aleatória do processo de geração de dados", pois parece contradizer as outras partes do que você escreveu.

precisa saber é o seguinte

3 - 5

$3-5$

Modos de Inferência Estatística Paramétrica , & Barnett (1999), Inferência Estatística Comparativa . (4) A abordagem freqüentista considera apenas a probabilidade dos dados sob determinados valores de parâmetros; a abordagem bayesiana condiciona os dados observados para obter um posterior.

Scortchi - Restabelecer Monica