Sob quais condições coincidem os estimadores de pontos bayesianos e freqüentistas?

17

Com um plano prévio, os estimadores ML (freqüentista - máxima verossimilhança) e MAP (bayesiano - máxima a posteriori) coincidem.

De maneira mais geral, porém, estou falando de estimadores de pontos derivados como otimizadores de alguma função de perda. Ou seja,

(Bayesian)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

onde é o operador expectativa, L é a função de perda (minimizada a zero), x ( y ) é o estimador, dado os dados Y , o parâmetro de x , e variáveis aleatórias são denotados com as letras maiúsculas.ELx^(y)yx

Alguém sabe quaisquer condições em , o pdf de x e y , imposta linearidade e / ou viés, onde os estimadores coincidirá?Lxy

Editar

Conforme observado nos comentários, é necessário um requisito de imparcialidade, como a imparcialidade, para tornar significativo o problema freqüentista. Priores planos também podem ser comuns.

Além das discussões gerais fornecidas por algumas das respostas, a questão também é realmente sobre fornecer exemplos reais . Eu acho que um importante vem da regressão linear:

  • x = ( D ' D ) - 1 D ' y é a (AZUL teorema de Gauss-Markov ), ou seja, que minimiza o MSE entre frequencista estimadores linear-imparciais.x^=(DD)1Dy
  • se é Gaussiana e o anterior é plana, x = ( D ' D ) - 1 D ' y é o "posteriores" médios minimiza a perda média de Bayesian para qualquer função de perda convexa.(X,Y)x^=(DD)1Dy

Aqui, parece ser conhecido como matriz de dados / design no jargão frequentista / bayesiano, respectivamente.D

Patrick
fonte
Suponho que você deseja que a resposta assuma um plano antes? Caso contrário, é claro que não há como esperar que as estimativas sejam as mesmas em casos gerais interessantes.
user56834
2
Não é uma pergunta simples de responder na generalidade que você a propõe, mas atualmente é um tópico de pesquisa muito interessante; veja, por exemplo, o trabalho de Judith Rousseau nesta área: ceremade.dauphine.fr/~rousseau/publi.html
Jeremias K
@ JeremiasK, talvez você possa explicar algo sobre isso em uma resposta?
user56834
1
@ Programmer2134 Eu faria se me sentisse confortável o suficiente com o material, mas não sinto. Eu sei que o que eles fazem é derivar uma contrapartida bayesiana de um CLT, com certas 'taxas de concentração posteriores' que informam com que rapidez o parâmetro posterior se concentra em um ponto no espaço de parâmetros à medida que você aumenta o tamanho da amostra e, basicamente, termina encontrar garantias de consistência do tipo frequentista para seus estimadores bayesianos.
11557 Jeremias K

Respostas:

7

A questão é interessante, mas um tanto sem esperança, a menos que a noção de estimador freqüentista seja precisa. Definitivamente, não é o único conjunto na questão x ( uma vez que a resposta para a minimização é x ( y ) = x para todos os y 's como fora aguçada naresposta de Programmer2134. A questão fundamental é que não existe um estimador freqüentador único para um problema de estimativa, sem a introdução de restrições suplementares ou classes de estimadores. Sem esses, todos os estimadores de Bayes também são estimadores freqüentistas.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Como apontado nos comentários, a imparcialidade pode ser uma restrição, caso em que os estimadores de Bayes são excluídos. Mas essa noção freqüentista colide com outras noções freqüentistas, como

  1. admissibilidade, uma vez que o fenômeno James-Stein demonstrou que estimadores imparciais podem ser inadmissíveis (dependendo da função de perda e da dimensão do problema);
  2. invariância sob reparameterização, uma vez que a imparcialidade não se mantém sob transformações.

Além disso, a imparcialidade se aplica apenas a uma classe restrita de problemas de estimativa. Com isso, quero dizer que a classe de estimadores imparciais de um determinado parâmetro ou de uma transformação h ( θ ) fica na maior parte do tempo vazia.θh(θ)

Falando em admissibilidade, outra noção freqüentista, existem cenários para os quais os únicos estimadores admissíveis são estimadores de Bayes e vice-versa. Esse tipo de configuração refere-se aos teoremas de classe completos estabelecidos por Abraham Wald nos anos 50. (O mesmo se aplica aos melhores estimadores invariantes que são Bayes sob a medida apropriada de Haar correta.)

Xi'an
fonte
1
Existem outras maneiras canônicas de restringir a classe de estimadores para que o problema de minimização seja bem definido e não degenerado (além de exigir imparcialidade), mais próximo do bayesiano?
user56834
3

Em geral, os estimadores frequentistas e bayesianos não coincidem, a menos que você use um plano degenerado antes. A principal razão é a seguinte: os estimadores freqüentistas geralmente se esforçam para ser imparciais. Por exemplo, os freqüentadores geralmente tentam encontrar o estimador imparcial de variância mínima ( http://en.wikipedia.org/wiki/Minimum-variance_unbiated_estimator ). Enquanto isso, todos os estimadores de Bayes não degenerados são tendenciosos (no sentido freqüentista de tendenciosidade). Veja, por exemplo, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Teorema 5.

Para resumir: A maioria dos estimadores freqüentistas populares se esforça para ser imparcial, enquanto todos os estimadores de Bayes são tendenciosos. Assim, Bayes e estimadores freqüentistas raramente coincidem.

Stefan Wager
fonte
5
Eu me pergunto sobre a exatidão dessas afirmações, dado que "a maioria dos estimadores freqüentistas populares" são ML e tendem a ser tendenciosos (dependendo da parametrização). Além disso, um bom freqüentador está profundamente preocupado com perda e admissibilidade; Uma parte essencial dessa teoria reconhece que os procedimentos admissíveis provêm dos procedimentos de Bayes, de onde - pelo menos nesse sentido amplo - o próprio cerne da teoria freqüentista depende dos estimadores de Bayes! Eu poderia ser persuadido do seu ponto de vista se você pudesse ser mais claro sobre "frequentemente", "a maioria" e "raramente", e apoiar isso com evidências.
whuber
@whuber Bom ponto - minha resposta foi talvez um pouco simplista. Frequentistas reais tendem a usar procedimentos tendenciosos (por exemplo, regressão penalizada de L1 ou L2), ou podem até usar procedimentos formalmente bayesianos. No entanto, acho que estimadores imparciais são o ponto de partida para as análises mais freqüentes. Por exemplo, o primeiro capítulo da teoria da estimativa pontual de Lehmann & Casella (um dos textos padrão sobre estimativa freqüentista) é sobre imparcialidade.
precisa
5
Bem, ok (+1). Mas acho o seu último argumento divertido: afinal, um livro precisa começar em algum lugar e, geralmente, esse ponto de partida é escolhido por sua simplicidade e acessibilidade, não por sua importância prática. Pelo mesmo raciocínio, você poderia afirmar que a maioria das matemáticas modernas se preocupa principalmente com a lógica e a teoria dos conjuntos, porque elas geralmente formam o primeiro capítulo de muitos livros de matemática! Um melhor reflexo da prática estatística pode ser a última metade de Lehmann & Casella - dê uma olhada no que é discutido lá :-).
whuber
"a menos que você use um apartamento degenerado antes". Bem, este é um caso especial interessante para se pensar, não é?
user56834
Além disso, sua pergunta é sobre se eles coincidiriam teoricamente sob certas condições, não se os estimadores usados ​​na prática coincidem.
user56834
3

argminx^(y)y

xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)x^x^=x

user56834
fonte
1
Bons pontos. Eu acho que você está certo sobre o problema freqüentista. A maneira de torná-lo bem posicionado é restringir a classe de estimadores. De Lehmann & Casella: "Até agora, preocupamo-nos em encontrar estimadores que minimizem o risco R (θ, δ) em todos os valores de θ. Isso foi possível apenas restringindo a classe de estimadores a serem considerados por um requisito de imparcialidade, como como imparcialidade ou equivalência ".
Patrick
1

Pode não haver resposta para essa pergunta.

Uma alternativa seria pedir métodos para determinar as duas estimativas com eficiência para qualquer problema em questão. Os métodos bayesianos estão bem próximos desse ideal. Entretanto, embora os métodos minimax possam ser usados ​​para determinar a estimativa pontual freqüentista, em geral, a aplicação do método minimax permanece difícil e tende a não ser utilizada na prática.

Uma outra alternativa seria reformular a pergunta sobre as condições sob as quais os estimadores bayesianos e freqüentadores fornecem resultados "consistentes" e tentam identificar métodos para calcular eficientemente esses estimadores. Aqui "consistente" é considerado para implicar que os estimadores bayesianos e freqüentistas são derivados de uma teoria comum e que o mesmo critério de otimização é usado para ambos os estimadores. Isso é muito diferente de tentar se opor às estatísticas bayesianas e freqüentistas, e pode tornar a pergunta acima supérflua. Uma abordagem possível é visar, tanto no caso freqüentista quanto no caso bayesiano, conjuntos de decisões que minimizem a perda para um determinado tamanho, isto é, conforme proposto por

Schafer, Chad M e Philip B Stark. "Construindo regiões de confiança com o tamanho ideal esperado". Jornal da Associação Estatística Americana 104.487 (2009): 1080-1089.

Acontece que isso é possível - tanto para o caso freqüentista quanto para o bayesiano - incluindo por observações e parâmetros de preferência com grandes informações mútuas pontuais. Os conjuntos de decisões não serão idênticos, pois a pergunta que está sendo feita é diferente:

  • Independentemente do que é o verdadeiro parâmetro, limite o risco de tomar decisões erradas (a visão freqüentista)
  • Dadas algumas observações, limite o risco de incluir parâmetros errados no conjunto de decisões (visão bayesiana)

No entanto, os conjuntos se sobrepõem amplamente e se tornam idênticos em algumas situações, se forem utilizados planos anteriores. A idéia é discutida em mais detalhes, juntamente com uma eficiente implementação

Bartels, Christian (2015): Confiança genérica e consistente e regiões credíveis. compartilhamento de figo. https://doi.org/10.6084/m9.figshare.1528163

Para priores informativos, os conjuntos de decisões se desviam mais (como é comumente conhecido e foi apontado na pergunta e nas respostas acima). Porém, dentro de uma estrutura consistente, obtém-se testes freqüentistas, que garantem a cobertura freqüentista desejada, mas levam em consideração o conhecimento prévio.

Bartels, Christian (2017): Usando conhecimentos prévios em testes freqüentistas. compartilhamento de figo. https://doi.org/10.6084/m9.figshare.4819597

Os métodos propostos ainda carecem de uma implementação eficiente da marginalização.

user36160
fonte
Você poderia elaborar em sua pergunta mais especificamente quando elas seriam "consistentes"?
user56834
@ Programmer2134. Obrigado, tentei esclarecer na resposta.
user36160