Introdução às estatísticas freqüentistas para bayesianos [fechado]

8

Sou um bayesiano de mente simples que se sente confortável no aconchegante mundo de Bayes.

No entanto, devido a forças malévolas fora do meu controle, agora tenho que fazer cursos introdutórios de pós-graduação sobre o mundo exótico e estranho das estatísticas freqüentistas. Alguns desses conceitos me parecem muito estranhos, e meus professores não são versados ​​em Bayes, então pensei em obter ajuda na internet daqueles que entendem os dois.

Como você explicaria os diferentes conceitos nas estatísticas freqüentistas a um bayesiano que considera o frequentismo estranho e desconfortável ?

Por exemplo, algumas coisas que eu já entendo:

  • O estimador de probabilidade máxima é igual ao estimador posterior máximo , se é plana.argmax θargmaxθp(D|θ)p ( θ )argmaxθp(θ|D)p(θ)
  • (não tenho muita certeza sobre este). Se um determinado estimador for uma estatística suficiente para um parâmetro , e for simples, então , ou seja, a distribuição da amostra é igual à função de verossimilhança e, portanto, igual ao posterior do parâmetro dado um plano anterior. θp(θ)p( θ |θ)=c1p(D|θ)=c1c2p(θ|D)θ^θp(θ)p(θ^|θ)=c1p(D|θ)=c1c2p(θ|D)

Esses são exemplos de explicação de conceitos frequentistas para alguém que entende os conceitos bayesianos.

Como você explicaria de maneira semelhante os outros conceitos centrais da estatística freqüentista em termos que um bayesiano pode entender?

Especificamente, estou interessado nas seguintes perguntas:

  • Qual é o papel do erro do quadrado médio? Como isso se relaciona com as funções de perda bayesiana?
  • Como o critério de "imparcialidade" se relaciona com os critérios bayesianos? Eu sei que um bayesiano não exigirá que seus estimadores sejam imparciais, mas, ao mesmo tempo, um bayesiano provavelmente concordaria que um estimador freqüentador imparcial é geralmente mais desejável que um freqüentador tendencioso (mesmo que considerasse ambos inferiores a estimador bayesiano). Então, como um bayesiano entende a imparcialidade?
  • Se temos antecedentes planos, os intervalos de confiança freqüentista coincidem de alguma forma com os bayesianos?
  • O que, em nome de Laplace, está acontecendo com testes de especificação como o teste ? Esse é um caso especial e degenerado de uma atualização bayesiana na distribuição no espaço do modelo?F

De forma geral:

Existe algum recurso que explique o freqüentismo aos bayesianos? A maioria dos livros é inversa: eles explicam o bayesianismo a pessoas com experiência em estatísticas freqüentistas.


ps. Procurei e, embora já existam muitas perguntas sobre a diferença entre Bayesiano e Frequentismo, nenhuma explica explicitamente o Frequentismo da perspectiva de um Bayesiano.

Esta questão está relacionada, mas não é especificamente sobre a explicação de conceitos freqüentistas para um bayesiano (mais sobre justificar o pensamento freqüentista em geral).

Além disso, meu argumento não é criticar o freqüentismo. Eu realmente quero entender melhor

user56834
fonte
2
Esta pode ser uma pergunta válida, mas parece muito ampla nesse formulário, pois você parece nos pedir para traduzir qualquer método freqüentista possível para o formato bayesiano - alguém poderia escrever um livro sobre esse assunto! A maioria dos manuais bayesianos introdutórios (por exemplo, Kruschke) discute esses tópicos, pois eles são direcionados a freqüentadores. Além disso, você provavelmente já usa muitas ferramentas freqüentes (por exemplo, para diagnosticar suas cadeias MCMC). Alguns dos tópicos mencionados não são puramente bayesianos (função de perda). Você pode tentar editar sua pergunta para torná-la mais específica?
Tim
2
Simpatizo e aprecio a pergunta. Além da literatura, se você estiver interessado em idéias da comunidade sobre questões específicas, recomendo que você tente dividir. Muitos deles parecem muito interessantes. Devo admitir que me fiz várias dessas perguntas com sucesso misto.
Benoit Sanchez
6
Essa pergunta me fez estremecer e pensar que o ensino de estatística está quebrado. Como alguém conseguiu passar pelas estatísticas básicas sem a noção de viés é desconcertante. Da mesma forma, o fato de um aluno achar que seus educadores não são " versados ​​em Bayes ", para que não possam explicar "Estatísticas Frequentistas" adequadamente a um "Bayesiano", não sei ... estranho ? (Não voto negativo nem nada, acho bom que o OP pergunte e a resposta de TIm abaixo seja muito sensata (+1), mas realmente ... a pergunta me deixou desconfortável com o fato de algo estar fundamentalmente errado nesse contexto.)
usεr11852
4
Você realmente não entenderá a escalada se forçar a vê-la como natação vertical.
David Ernst
1
Faça um teste t simples, pois ele não computa um posterior, porque explicitamente não deseja escolher um anterior. Como você vai encontrar um equivalente bayesiano para evitar Bayes? Com o MLE, você encontrou a única técnica na qual identificará facilmente um equivalente bayesiano, já que essa já é basicamente uma técnica bayesiana em todos os seus nomes.
David Ernst

Respostas:

14

Na verdade, muitas das coisas mencionadas por você já são discutidas pelos principais manuais bayesianos. Em muitos casos, esses manuais são escritos para frequentistas por treinamento, por isso discutem muitas semelhanças e tentam traduzir os métodos freqüentistas em terreno bayesiano. Um exemplo é o livro Doing Bayesian Data Analysis , de John K. Kruschke, ou seu artigo traduzindo o teste para terreno bayesiano. Há também um outro psicólogo, Eric-Jan Wagenmakers, que com sua equipe falou muito sobre a tradução de conceitos freqüentadores em termos bayesianos. Conceitos teóricos da decisão como funções de perda, falta de imparcialidade etc. são discutidos no livro The Bayesian Choice , de Christian P. Robert.t

Além disso, alguns dos conceitos mencionados por você não são realmente bayesianos. Por exemplo, a função de perda é um conceito geral e somente se você combiná-la com a distribuição anterior, você terá um risco de Bayes.

Também vale a pena mencionar que, mesmo se você é autodeclarado bayesiano, provavelmente já usa muitos métodos freqüentistas. Por exemplo, se você usa o MCMC para estimativa e, em seguida, calcula a média da cadeia MCMC como sua estimativa pontual, está usando um estimador freqüentista, já que não está usando nenhum modelo bayesiano e anteriores para obter a estimativa da média do MCMC cadeia.

Finalmente, alguns conceitos e ferramentas freqüentistas não são facilmente traduzíveis para o cenário bayesiano, ou os "equivalentes" propostos são mais uma prova de conceito, do que algo que você usaria na vida real. Em muitos casos, as abordagens são simplesmente diferentes e procurar paralelos é uma perda de tempo.

Tim
fonte
2
(+1): pontos muito bons!
Xi'an
Você pode encontrar este blog interessante: errorstatistics.com
kjetil b halvorsen
3

(não tenho certeza absoluta sobre este). Se um determinado estimador for uma estatística suficiente para um parâmetro e for plano, então , isto é, a distribuição da amostra é igual à função de verossimilhança e, portanto, igual à posterior do parâmetro, dado um plano anterior.θ^̂θp(θ)p(θ^̂|θ)=p(D|θ)=cp(θ|D)

Isso está incorreto:

  1. p(D|θ)=p(θ^̂|θ)×p(D|θ^) quando é uma estatística suficienteθ^
  2. D θp(D|θ)=cp(θ|D) é falso quando considerado como uma função de e quando é considerado como uma função de (a menos que se use o plano anterior)Dθ
  3. somente o posterior baseado em igual ao posterior baseado em neste contexto. Dθ^D

Além disso, suficiência não tem nada a ver com freqüentismo versus bayesianismo, mesmo que exista especificamente noções bayesianas de suficiência. Como por exemplo na comparação de modelos .

um bayesiano provavelmente concordaria que um estimador freqüentista imparcial é geralmente mais desejável do que um avaliador freqüentista tendencioso

O problema com esta parte da questão é que os estimadores bayesianos são estimadores freqüentistas e também satisfazem propriedades frequentistas como admissibilidade ou, às vezes, minimaxidade. Conforme discutido em uma entrada recente em CV , as estimativas de Bayes sob perda de erro ao quadrado não podem ser imparciais . E não há razão para usar uma função de perda especial para favorecer a imparcialidade: minimizar uma perda posterior é abrangente e, se impor a imparcialidade resultar em uma perda maior, ela não deve ser considerada. (Um último ponto é que existem muito poucas funções do parâmetro que permitem estimadores imparciais).

Xi'an
fonte
Apenas para esclarecer, esse ponto não foi uma tentativa de conectar o conceito de suficiência ao bayesianismo, mas de conectar o conceito de distribuição de amostras a distribuições posteriores. Os conceitos de suficiência no frequentismo e bayesianismo são equivalentes, o que pode ser visto simplesmente pela aplicação da regra de bayes. Mas vou estudar sua postagem e tentar entender melhor isso.
user56834
2

Parece-me que você está considerando um mundo de frequentistas e bayesianos. Isso não é muito matizado. Como se você tivesse que ser um ou outro, ou como se os métodos aplicados fossem determinados por algumas crenças pessoais (em vez de conveniência e o problema específico e as informações disponíveis). Acredito que este é um equívoco baseado nas tendências atuais de se chamar de freqüentista ou bayesiano, e também muita linguagem estatística pode ser confusa. Apenas tente que um grupo de estatísticos explique o valor de p ou o intervalo de confiança.

Algumas obras clássicas podem ajudá-lo a entender a inferência freqüentista. As obras clássicas contêm princípios fundamentais, aproximam-se do calor da discussão entre os proponentes e fornecem um pano de fundo da motivação (prática) e relevância da época.

Além disso, esses trabalhos clássicos sobre métodos freqüentistas foram escritos em uma época em que as pessoas trabalhavam principalmente com princípios bayesianos e cálculo matemático de probabilidade (observe que a estatística nem sempre é como se você estivesse trabalhando em um problema típico de matemática com probabilidades, as probabilidades podem ser muito mal definido).

Probabilidade freqüentista não é probabilidade inversa

'Probabilidade inversa' Fisher 1930

Você faz uma noção da probabilidade de ser uma expressão bayesiana com um plano anterior

Contudo,

  1. enquanto a matemática coincide (quando interpretada incorretamente, já que você pode obter P (x | a) = P (a | x), até uma constante, mas não são os mesmos termos), a construção e o significado são diferentes.

  2. Probabilidade não pretende ser uma 'probabilidade bayesiana baseada em anteriores planos ou uniformados'. A probabilidade nem sequer é uma probabilidade e não segue as regras das distribuições de probabilidade (por exemplo, você não pode adicionar probabilidade para eventos diferentes e a integral não é igual a um); é somente quando você a multiplica por um plano anterior, que isso se torna uma probabilidade, mas o significado também mudou.

Algumas citações interessantes de 'probabilidade inversa' 1930 Fisher.

Métodos bayesianos e frequentistas são ferramentas diferentes :

... existem duas medidas diferentes de crença racional apropriadas para diferentes casos. Conhecendo a população, podemos expressar nosso conhecimento incompleto ou expectativa da amostra em termos de probabilidade; conhecendo a amostra, podemos expressar nosso conhecimento incompleto da população em termos de probabilidade. Podemos afirmar a probabilidade relativa de que uma correlação desconhecida seja + 0,6, mas não a probabilidade de que ela esteja no intervalo de 0,559 a 0,605.

Note que não é uma certa afirmação de probabilidade, que um método freqüentista fornece.

Ao construir uma tabela de valores correspondentes, podemos saber, assim que T for calculado, qual é o valor fiducial de 5%, valor de , e que o valor real de será menor que esse valor em apenas 5%, de provações. Essa é uma declaração de probabilidade definida sobre o parâmetro desconhecido , que é verdadeiro independentemente de qualquer suposição quanto à sua distribuição a priori .θ θθθθ

  • um método frequentista afirma a probabilidade de um experimento (com intervalo aleatório) ter o valor verdadeiro de um parâmetro (possivelmente aleatório) dentro do intervalo fornecido por uma estatística.
  • Isso não deve ser confundido com a probabilidade de que um experimento específico (com intervalo fixo) tenha o valor verdadeiro do parâmetro (fixo) dentro do intervalo fornecido pela estatística.

Consulte também 'Sobre o "erro provável" de um coeficiente de correlação reduzido de uma amostra pequena.' Fisher 1921, no qual Fisher demonstrou a diferença de seu método não ser uma probabilidade inversa bayesiana.

No artigo anterior, verificou-se, aplicando um método desenvolvido anteriormente, que o valor << mais provável >> da correlação da população era numericamente ligeiramente menor que o da amostra. Essa conclusão foi criticada negativamente na Biometrica , aparentemente com a suposição incorreta de que eu a deduzi do teorema de Bayes . Será mostrado neste artigo que, quando as curvas de amostragem são tornadas aproximadamente normais, a correção que propus é igual à distância entre o valor da população e o ponto médio da curva de amostragem e, portanto, não é mais do que a correção de uma viés constante introduzido pelo método de cálculo. Nenhuma suposição quanto à probabilidade a priori está envolvida.

e

... dois conceitos radicalmente distintos foram confundidos sob o nome de << probabilidade >> ...

isso é probabilidade e probabilidade. Veja também a nota no final do artigo de Fishers de 1921, na qual ele fala mais sobre a confusão.

Observe novamente que a probabilidade é uma função de um conjunto de parâmetros, mas não uma função de densidade de probabilidade desse conjunto de parâmetros.

A probabilidade é usada para algo que você pode observar. Por exemplo, a probabilidade de um dado rolar seis. A probabilidade é usada para algo que você não pode observar, por exemplo, a hipótese de que um dado rola seis 1/6 do tempo.

Além disso, você pode gostar do trabalho de Fisher, no qual ele é muito mais leve em sua opinião sobre o teorema de Bayes (ainda descrevendo as diferenças). 'Sobre os fundamentos matemáticos das estatísticas teóricas' Fisher 1922 (especialmente a seção 6 'solução formal do problema de estimativa')

Mais

Se você puder entender e apreciar os comentários de Fisher sobre a diferença entre probabilidade inversa e o princípio da probabilidade, convém ler mais sobre as diferenças nos métodos freqüentes.

'Esboço de uma teoria da estimativa estatística baseada na teoria clássica da probabilidade' Neyman 1937

Que é um trabalho de 50 páginas e difícil de resumir. Mas ele lida com suas perguntas sobre imparcialidade , explica o método dos mínimos quadrados (e a diferença com o método da máxima verossimilhança) e fornece especificamente um tratamento dos intervalos de confiança (o intervalo freqüentista já não é semelhante, único e muito menos o mesmo que os intervalos bayesianos para priores planos).

Quanto ao teste F, não está claro o que, em nome de Laplace, você acha que está errado. Se você gosta de um uso precoce, pode procurar em 'Estudos sobre variação de culturas. II A resposta manurial das diferentes variedades de batata '1923 Fisher e Mackenzie

Este artigo tem a expressão de anova em um modelo linear reconhecível, subdividindo as somas de quadrados entre grupos e dentro deles.

(no teste do artigo de 1923, o teste consiste em uma comparação das diferenças entre os logs dos desvios padrão da amostra com um erro padrão calculado para essa diferença que é determinada pela soma dos graus de liberdade . Trabalhos posteriores tornam essas expressões mais sofisticadas que levam à distribuição F, de modo que podem difundir as idéias que se pode ter sobre ela. Mas, em essência, sem o malabarismo técnico devido a distribuições mais exatas para números pequenos, sua origem é muito parecida com um teste z).12d1+12d2

Sextus Empiricus
fonte