Se você usa uma estimativa pontual que maximiza

12

Se alguém dissesse

"Esse método usa ~~o MLE~~ como estimativa de pontos para o parâmetro que maximiza , portanto, é freqüentista; além disso, não é bayesiano". $\mathrm{P}(x|\theta)$

você concordaria?

Atualização em segundo plano : Recentemente, li um artigo que afirma ser freqüentista. Não concordo com a afirmação deles, na melhor das hipóteses acho ambíguo. O artigo não menciona explicitamente o MLE (ou o MAP , nesse caso). Eles apenas fazem uma estimativa pontual e simplesmente procedem como se essa estimativa pontual fosse verdadeira. Eles nãofaça qualquer análise da distribuição amostral desse estimador ou algo assim; o modelo é bastante complexo e, portanto, essa análise provavelmente não é possível. Eles também não usam a palavra "posterior" em nenhum momento. Eles apenas tomam essa estimativa pontual pelo valor nominal e prosseguem para o principal tópico de interesse - inferindo dados ausentes. Não acho que exista algo em sua abordagem que sugira qual é a filosofia deles. Eles podem ter pretendido ser freqüentadores (porque se sentem obrigados a usar sua filosofia na manga), mas sua abordagem atual é bastante simples / conveniente / preguiçosa / ambígua. Estou inclinado agora a dizer que a pesquisa realmente não tem nenhuma filosofia por trás disso; em vez disso, acho que a atitude deles era mais pragmática ou conveniente:

"Eu tenho os dados observados, , e eu desejo para estimar alguns dados em falta, . Há um parâmetro que controla a relação entre e . Eu realmente não se preocupam com , exceto como um meio para um fim. Se Eu tenho uma estimativa para ele irá torná-lo mais fácil de prever de vou escolher uma estimativa pontual da. porque é conveniente, em particular, eu vou escolher o que maximiza ." $x$ $z$ $\theta$ $z$ $x$ $\theta$ $\theta$ $z$ $x$ $\theta$ $\hat{\theta}$ $\mathrm{P}(x|\theta)$

A idéia de um estimador imparcial é claramente um conceito freqüentista. Isso ocorre porque ele não condiciona os dados e descreve uma propriedade agradável (imparcialidade) que seria válida para todos os valores do parâmetro.

Nos métodos bayesianos, os papéis dos dados e o parâmetro são meio invertidos. Em particular, agora condicionamos os dados observados e procedemos a inferências sobre o valor do parâmetro. Isso requer um prévio.

Até aqui tudo bem, mas onde o MLE (estimativa máxima de verossimilhança) se encaixa nisso tudo? Tenho a impressão de que muitas pessoas sentem que é freqüentista (ou mais precisamente, que não é bayesiano). Mas sinto que é bayesiano porque envolve pegar os dados observados e depois encontrar o parâmetro que maximiza . O MLE está implicitamente usando um prévio e condicionamento uniforme nos dados e maximizando $P(data | parameter)$ . É justo dizer que o MLE parece freqüentista e bayesiano? Ou toda ferramenta simples precisa se encaixar exatamente em uma dessas duas categorias? $P(parameter | data)$

O MLE é consistente, mas sinto que a consistência pode ser apresentada como uma ideia bayesiana. Dadas amostras arbitrariamente grandes, a estimativa converge para a resposta correta. A declaração "a estimativa será igual ao valor verdadeiro" é verdadeira para todos os valores do parâmetro. O interessante é que essa afirmação também se aplica se você condicionar os dados observados, tornando-o bayesiano. Este aparte interessante vale para o MLE, mas não para um estimador imparcial.

É por isso que sinto que o MLE é o "mais bayesiano" dos métodos que podem ser descritos como freqüentistas.

De qualquer forma, a maioria das propriedades freqüentistas (como imparcialidade) se aplicam em todos os casos, incluindo tamanhos finitos de amostra. O fato de a consistência se manter apenas no cenário impossível (amostra infinita em um experimento) sugere que a consistência não é uma propriedade tão útil.

Dada uma amostra realista (isto é, finita), existe uma propriedade Frequentist que se aplica ao MLE? Caso contrário, o MLE não é realmente freqüentista.

bayesian maximum-likelihood likelihood frequentist philosophical Aaron McDaid
fonte

6

O MLE não pode ser considerado bayesiano a partir da interpretação dos parâmetros nos dois paradigmas. De uma perspectiva bayesiana, um parâmetro é uma variável aleatória, enquanto no cenário clássico é um valor a ser estimado. O MLE coincide com o MAP (e possivelmente outros estimadores Bayesianos) em muitos casos, mas a interpretação é completamente diferente.

3

@ Procrastinator, você deve postar seu comentário como resposta. Não estou esperando para votar ou aceitar ainda, mas sinto que seu comentário é uma resposta. Então, você e eu podemos excluir nossos comentários aqui.

Aaron McDaid

1

Eu não entendo essa pergunta. (Eu posso estar sozinho nisso.) Exatamente o que você quer dizer com "frequentista"? "Não Bayesiano" não serve, porque isso compreende uma enorme variedade de filosofias e métodos. O que faz de algo uma "propriedade freqüentista"? Existe alguma conexão entre o seu "frequentista" e, digamos, um Abraham Wald ou Jack Kiefer que justifique procedimentos estatísticos com princípios teóricos da decisão? (Kiefer, em particular, tinha uma opinião bastante crítica de MLE nesta base.)

whuber

3

@ whuber: Você não está sozinho. O único voto para fechar é meu e foi feito um ou dois dias atrás. Essa questão carece de alguma clareza, foco e limita o não construtivo devido a seu enquadramento discursivo e um tanto polêmico, na minha opinião.

cardeal

1

Os moderadores estão relutantes em fechar este tópico porque ele coletou muitas respostas (incluindo uma que foi aceita!) E comentários, o que sugere que a comunidade pode discordar da sua nova avaliação deste tópico, Aaron.

whuber

7

Ou toda ferramenta simples precisa se encaixar exatamente em uma dessas duas categorias?

Não. Ferramentas simples (e não tão simples) podem ser estudadas sob muitos pontos de vista diferentes. A função de verossimilhança, por si só, é uma pedra angular nas estatísticas bayesiana e freqüentista, e pode ser estudada de ambos os pontos de vista! Se você quiser, pode estudar o MLE como uma solução aproximada de Bayes, ou pode estudar suas propriedades com a teoria assintótica, de maneira freqüente.

kjetil b halvorsen
fonte

4

Isso está errado Aaron. Os freqüentistas usam a estimativa de máxima verossimilhança e acreditam no princípio da verossimilhança. Kjetil está certo de que a função de probabilidade é um elemento-chave das abordagens bayesiana e freqüentista da inferência. Mas eles usam de maneira diferente.

Michael R. Chernick

3

Eu dei uma resposta muito boa à pergunta de Aaron, mas por algum motivo estranho as pessoas estão votando contra. Eles não devem entender o que está acontecendo. Não há como a estimativa da máxima probabilidade ser classificada como bayesiana, pois maximiza a probabilidade e não considera distribuições anteriores!

Michael R. Chernick

4

(Acabei de excluir um comentário, estou tentando garantir que adiciono apenas comentários úteis.) Michael, não há motivo para reclamar de votos negativos e você não vai ter nenhuma simpatia simplesmente dizendo "Eles não devem entender o que é". indo."

Aaron McDaid

7

@ Michael, você já presenciou uma série de perguntas e respostas produtivas que começam com "por que eu fui derrotado"? Eu com certeza não tenho. É por isso que eu (e vários outros membros aqui) desencorajamos até mesmo o início da conversa, independentemente de você achar ou não justificado. É inútil e geralmente leva a uma discussão fora do tópico.

Macro

3

@ Michael, eu certamente concordo que é uma cortesia comum dar uma explicação, e tento fazê-lo se outra pessoa ainda não tiver manifestado minha preocupação nos comentários. Mas se você receber um voto silencioso, duvido que abordar o assunto inicie uma conversa produtiva.

Macro

10

Ao fazer a estimativa de máxima verossimilhança, você considera o valor da estimativa e as propriedades de amostragem do estimador para estabelecer a incerteza da sua estimativa expressa como um intervalo de confiança. Eu acho que isso é importante em relação à sua pergunta, porque um intervalo de confiança geralmente depende de pontos de amostra que não foram observados, o que, para alguns, parece ser uma propriedade essencialmente anti-índia.

PS Isso está relacionado ao fato mais geral de que a estimativa de máxima verossimilhança (ponto + intervalo) falha em satisfazer o princípio da verossimilhança , enquanto uma análise bayesiana completa (" estilo selvagem ") o faz.

zen
fonte

+1. A idéia de que o normal truncado resultará em um posterior diferente é interessante e surpreendente! Eu comentei que era cético, mas excluí esse comentário. Vou precisar pensar um pouco mais. Normalmente, acho que o Princípio da Probabilidade é "obviamente verdadeiro", então devo pensar um pouco mais sobre isso.

Aaron McDaid

Bom ponto Zen. Eu acho que, como uma estimativa pontual, a estimativa de probabilidade máxima está em conformidade com o princípio da probabilidade, mas a noção freqüente de intervalos de confiança não está.

Michael R. Chernick

@ Zen, não estou convencido de que os posteriores sejam os mesmos. Você tem uma referência para isso? Eu criei um Google Doc com o meu argumento de que o posterior mudará à medida que substituímos um normal por um normal truncado. Desde já, obrigado.

Aaron McDaid

6

A função de probabilidade é uma função que envolve os dados e o (s) parâmetro (s) desconhecido (s). Pode ser vista como a densidade de probabilidade para os dados observados, dados os valores do (s) parâmetro (s). Os parâmetros são fixos. Então, por si só, a probabilidade é uma noção freqüentista. Maximizar a probabilidade é apenas encontrar os valores específicos do (s) parâmetro (s) que fazem com que a probabilidade assuma seu valor máximo. Portanto, a estimativa de máxima verossimilhança é um método freqüentista baseado apenas nos dados e na forma do modelo que se supõe gerá-los. A estimativa bayesiana somente entra quando uma distribuição anterior é colocada no (s) parâmetro (s) e a fórmula de Bayes é usada para obter uma distribuição posterior para o (s) parâmetro (s), combinando a anterior com a probabilidade.

Michael R. Chernick
fonte

Todos os comentários publicados aqui foram movidos para uma sala de bate-papo dedicada . Se alguém tiver dificuldade para ingressar nesta sala e, apenas neste caso, sinalize para atenção do moderador. Nenhum comentário adicional será aceito.

chl

6

Supondo que por "Bayesiano" você se refere a Bayes subjetivo (também conhecido como Bayes epistêmico, De-Finetti Bayes) e não ao atual significado empírico de Bayes - isso está longe de ser trivial. Por um lado, você deduz com base apenas em seus dados. Não há crenças subjetivas à mão. Isso parece bastante freqüente ... Mas a crítica, expressa até no próprio Fisher (um bayesiano estritamente não (subjetivo)), é que na escolha da distribuição amostral da subjetividade dos dados se arrastou. Um parâmetro é definido apenas, dada a nossa crenças do processo de geração de dados.

Concluindo - acredito que o MLE é tipicamente considerado um conceito frequentista, embora seja apenas uma questão de como você define "frequentista" e "bayesiano".

JohnRos
fonte

+1: é isso que eu estava tentando entender no meu comentário acima.

Neil G

1

(respondendo à própria pergunta)

Um estimador é uma função que pega alguns dados e produz um número (ou intervalo de números). Um estimador, por si só, não é realmente 'bayesiano' ou 'frequentista' - você pode pensar nele como uma caixa preta onde os números entram e saem. Você pode apresentar o mesmo estimador a um frequentista e a um bayesiano, e eles terão coisas diferentes a dizer sobre o estimador.

(Não estou satisfeito com minha distinção simplista entre frequentista e bayesiana - há outras questões a serem consideradas. Mas, por simplicidade, vamos fingir que são apenas dois campos filosóficos bem definidos.)

Você não pode dizer se um pesquisador é freqüentador de Bayesiano exatamente por qual estimador ele escolhe. O importante é ouvir as análises que eles fazem no estimador e quais as razões que eles dão para escolher esse estimador.

Imagine que você crie um software que encontre esse valor de $\theta$ o que maximiza $\mathrm{P}(\mathbf{x}|\theta)$ . Você apresenta este software a um frequentista e pede que ele faça uma apresentação sobre ele. Provavelmente procederão analisando a distribuição da amostra e testando se o estimador é tendencioso . E talvez eles verifiquem se é consistente . Eles aprovarão ou desaprovarão o estimador com base em propriedades como essa. Esses são os tipos de propriedades nas quais um frequentista está interessado.

Quando o mesmo software é apresentado a um bayesiano, o bayesiano pode muito bem estar satisfeito com grande parte da análise do frequentista. Sim, todas as outras coisas são iguais, o viés não é bom e a consistência é boa. Mas o bayesiano estará mais interessado em outras coisas. O bayesiano desejará ver se o estimador assume o formato de alguma função da distribuição posterior; e se sim, qual prior foi usado? Se o estimador é baseado em um posterior, o bayesiano se pergunta se o anterior é bom. Se eles estão satisfeitos com o anterior, e se o estimador está relatando o modo do posterior (em oposição a, digamos, a média do posterior), eles estão felizes em aplicar esta interpretação à estimativa: "Esta estimativa é o ponto estimar qual tem a melhor chance de estar correto ".

Costumo ouvir dizer que os freqüentadores e bayesianos "interpretam" as coisas de maneira diferente, mesmo quando os números envolvidos são os mesmos. Isso pode ser um pouco confuso, e não acho que seja verdade. Suas interpretações não conflitam; eles simplesmente fazem declarações sobre diferentes aspectos do sistema. Vamos deixar de lado as estimativas de pontos no momento e considerar os intervalos. Em particular, existem intervalos de confiança freqüentes e intervalos credíveis bayesianos . Eles geralmente dão respostas diferentes. Mas em certos modelos, com certos anteriores, os dois tipos de intervalo darão a mesma resposta numérica.

Quando os intervalos são os mesmos, como podemos interpretá-los de maneira diferente? Um frequentista dirá sobre um estimador de intervalo:

Antes de ver os dados ou o intervalo correspondente, posso dizer que há pelo menos uma probabilidade de 95% de que o parâmetro true esteja contido no intervalo.

considerando que um bayesiano dirá sobre um estimador de intervalo:

Depois de ver os dados ou o intervalo correspondente, posso dizer que há pelo menos uma probabilidade de 95% de que o parâmetro true esteja contido no intervalo.

Essas duas declarações são idênticas, além das palavras 'Antes' e 'Depois'. O bayesiano entenderá e concordará com a afirmação anterior e também reconhecerá que sua verdade é independente de qualquer anterior, tornando-a "mais forte". Mas falando como bayesiano, eu me preocuparia que a declaração anterior não fosse muito útil . O frequentista não vai gostar da última afirmação, mas não a entendo bem o suficiente para dar uma descrição justa das objeções do freqüentador.

Depois de ver os dados, o frequentista ainda estará otimista de que o valor verdadeiro está contido dentro do intervalo? Talvez não. Isso é um pouco contra-intuitivo, mas é importante para entender verdadeiramente os intervalos de confiança e outros conceitos baseados na distribuição da amostra. Você pode presumir que o freqüentador ainda diria "Dados os dados, ainda acho que há uma probabilidade de 95% de que o verdadeiro valor esteja nesse intervalo". Um frequentista não apenas questionaria se essa afirmação é verdadeira, mas também questionaria se é significativo atribuir probabilidades dessa maneira. Se você tiver mais perguntas sobre isso, não me pergunte, esse problema é demais para mim!

O bayesiano está feliz em fazer essa afirmação: "Condicionando os dados que acabei de ver, a probabilidade é de 95% de que o verdadeiro valor esteja nessa faixa".

Devo admitir que estou um pouco confuso em um ponto final. Eu entendo e concordo com a afirmação feita pelo frequentista antes que os dados sejam vistos. Eu entendo e concordo com a afirmação feita pelo Bayesiano depois que os dados são vistos. No entanto, não tenho tanta certeza do que o frequentista dirá depois que os dados forem vistos; suas crenças sobre o mundo mudaram? Não estou em posição de entender a filosofia frequentista aqui.

Aaron McDaid
fonte

1

Embora eu ache muito disso claro e esclarecedor, parece totalmente ignorar algo fundamental, que é uma interpretação totalmente diferente da probabilidade. Além disso, os dois últimos parágrafos não se aplicam a nenhuma análise ou interpretação que eu tenha visto. De fato, não reconheço nenhum estatístico praticante no seu "freqüentador" (que parece um filósofo antigo). Quem - pelo menos depois de Aristóteles - disse que a análise dos dados está completa antes de os dados serem obtidos? É um homem de palha por tentar adiantar uma abordagem bayesiana?

whuber

1

@ Whuber, se é um homem de palha, não é intencional. É sempre difícil fazer qualquer tentativa de relatar as opiniões de outras pessoas sem incluir acidentalmente um julgamento. E não pretendo ter uma compreensão ampla das muitas posições diferenciadas. Vou tentar repensar meu parágrafo final. Além disso, você diz que deixei de fora "interpretações diferentes de probabilidade". Prefiro não dizer nada do que dizer algo incorreto. Não é possível dizer tudo. Eu posso tentar dar-lhe a verdade e nada mais que a verdade, mas não posso dar-lhe toda a verdade :-)

Aaron McDaid

(+1) Você está certo, há um longo debate aqui e não se pode cobrir todos os pontos em um post. Estou votando esta resposta por sua exposição cuidadosa e atenciosa (mas não porque concordo com tudo isso!).

whuber

Editei os últimos parágrafos para tentar ser mais justo; de "Depois de ver os dados ..." em diante. Eu não sou especialista, então estou tentando ser honestamente vago onde estou saindo da minha profundidade. Obrigado pelo feedback.

Aaron McDaid

1

O estimador de pontos que maximiza $P(x|\theta)$ é o MLE. Este é um estimador de pontos comumente usado em estatísticas freqüentistas, mas é menos comumente usado em estatísticas bayesianas. Nas estatísticas bayesianas, é comum o uso de um estimador de pontos que seja o valor esperado posterior ou o valor que minimiza a perda esperada (risco) em um problema de decisão. Certamente existem alguns casos em que o estimador bayesiano corresponderá ao MLE (por exemplo, se tivermos um uniforme anterior ou, em alguns casos especiais, de minimizar perdas), mas isso não é uma ocorrência comum. Portanto, como regra geral, o MLE é geralmente um estimador freqüentista.

Restabelecer Monica
fonte

Se você usa uma estimativa pontual que maximiza

Respostas: