Sou um bayesiano de mente simples que se sente confortável no aconchegante mundo de Bayes.
No entanto, devido a forças malévolas fora do meu controle, agora tenho que fazer cursos introdutórios de pós-graduação sobre o mundo exótico e estranho das estatísticas freqüentistas. Alguns desses conceitos me parecem muito estranhos, e meus professores não são versados em Bayes, então pensei em obter ajuda na internet daqueles que entendem os dois.
Como você explicaria os diferentes conceitos nas estatísticas freqüentistas a um bayesiano que considera o frequentismo estranho e desconfortável ?
Por exemplo, algumas coisas que eu já entendo:
- O estimador de probabilidade máxima é igual ao estimador posterior máximo , se é plana.argmax θp ( θ )
- (não tenho muita certeza sobre este). Se um determinado estimador for uma estatística suficiente para um parâmetro , e for simples, então , ou seja, a distribuição da amostra é igual à função de verossimilhança e, portanto, igual ao posterior do parâmetro dado um plano anterior. θp(θ)p( θ |θ)=c1⋅p(D|θ)=c1⋅c2⋅p(θ|D)
Esses são exemplos de explicação de conceitos frequentistas para alguém que entende os conceitos bayesianos.
Como você explicaria de maneira semelhante os outros conceitos centrais da estatística freqüentista em termos que um bayesiano pode entender?
Especificamente, estou interessado nas seguintes perguntas:
- Qual é o papel do erro do quadrado médio? Como isso se relaciona com as funções de perda bayesiana?
- Como o critério de "imparcialidade" se relaciona com os critérios bayesianos? Eu sei que um bayesiano não exigirá que seus estimadores sejam imparciais, mas, ao mesmo tempo, um bayesiano provavelmente concordaria que um estimador freqüentador imparcial é geralmente mais desejável que um freqüentador tendencioso (mesmo que considerasse ambos inferiores a estimador bayesiano). Então, como um bayesiano entende a imparcialidade?
- Se temos antecedentes planos, os intervalos de confiança freqüentista coincidem de alguma forma com os bayesianos?
- O que, em nome de Laplace, está acontecendo com testes de especificação como o teste ? Esse é um caso especial e degenerado de uma atualização bayesiana na distribuição no espaço do modelo?
De forma geral:
Existe algum recurso que explique o freqüentismo aos bayesianos? A maioria dos livros é inversa: eles explicam o bayesianismo a pessoas com experiência em estatísticas freqüentistas.
ps. Procurei e, embora já existam muitas perguntas sobre a diferença entre Bayesiano e Frequentismo, nenhuma explica explicitamente o Frequentismo da perspectiva de um Bayesiano.
Esta questão está relacionada, mas não é especificamente sobre a explicação de conceitos freqüentistas para um bayesiano (mais sobre justificar o pensamento freqüentista em geral).
Além disso, meu argumento não é criticar o freqüentismo. Eu realmente quero entender melhor
fonte
Respostas:
Na verdade, muitas das coisas mencionadas por você já são discutidas pelos principais manuais bayesianos. Em muitos casos, esses manuais são escritos para frequentistas por treinamento, por isso discutem muitas semelhanças e tentam traduzir os métodos freqüentistas em terreno bayesiano. Um exemplo é o livro Doing Bayesian Data Analysis , de John K. Kruschke, ou seu artigo traduzindo o teste para terreno bayesiano. Há também um outro psicólogo, Eric-Jan Wagenmakers, que com sua equipe falou muito sobre a tradução de conceitos freqüentadores em termos bayesianos. Conceitos teóricos da decisão como funções de perda, falta de imparcialidade etc. são discutidos no livro The Bayesian Choice , de Christian P. Robert.t
Além disso, alguns dos conceitos mencionados por você não são realmente bayesianos. Por exemplo, a função de perda é um conceito geral e somente se você combiná-la com a distribuição anterior, você terá um risco de Bayes.
Também vale a pena mencionar que, mesmo se você é autodeclarado bayesiano, provavelmente já usa muitos métodos freqüentistas. Por exemplo, se você usa o MCMC para estimativa e, em seguida, calcula a média da cadeia MCMC como sua estimativa pontual, está usando um estimador freqüentista, já que não está usando nenhum modelo bayesiano e anteriores para obter a estimativa da média do MCMC cadeia.
Finalmente, alguns conceitos e ferramentas freqüentistas não são facilmente traduzíveis para o cenário bayesiano, ou os "equivalentes" propostos são mais uma prova de conceito, do que algo que você usaria na vida real. Em muitos casos, as abordagens são simplesmente diferentes e procurar paralelos é uma perda de tempo.
fonte
Isso está incorreto:
Além disso, suficiência não tem nada a ver com freqüentismo versus bayesianismo, mesmo que exista especificamente noções bayesianas de suficiência. Como por exemplo na comparação de modelos .
O problema com esta parte da questão é que os estimadores bayesianos são estimadores freqüentistas e também satisfazem propriedades frequentistas como admissibilidade ou, às vezes, minimaxidade. Conforme discutido em uma entrada recente em CV , as estimativas de Bayes sob perda de erro ao quadrado não podem ser imparciais . E não há razão para usar uma função de perda especial para favorecer a imparcialidade: minimizar uma perda posterior é abrangente e, se impor a imparcialidade resultar em uma perda maior, ela não deve ser considerada. (Um último ponto é que existem muito poucas funções do parâmetro que permitem estimadores imparciais).
fonte
Parece-me que você está considerando um mundo de frequentistas e bayesianos. Isso não é muito matizado. Como se você tivesse que ser um ou outro, ou como se os métodos aplicados fossem determinados por algumas crenças pessoais (em vez de conveniência e o problema específico e as informações disponíveis). Acredito que este é um equívoco baseado nas tendências atuais de se chamar de freqüentista ou bayesiano, e também muita linguagem estatística pode ser confusa. Apenas tente que um grupo de estatísticos explique o valor de p ou o intervalo de confiança.
Algumas obras clássicas podem ajudá-lo a entender a inferência freqüentista. As obras clássicas contêm princípios fundamentais, aproximam-se do calor da discussão entre os proponentes e fornecem um pano de fundo da motivação (prática) e relevância da época.
Além disso, esses trabalhos clássicos sobre métodos freqüentistas foram escritos em uma época em que as pessoas trabalhavam principalmente com princípios bayesianos e cálculo matemático de probabilidade (observe que a estatística nem sempre é como se você estivesse trabalhando em um problema típico de matemática com probabilidades, as probabilidades podem ser muito mal definido).
Probabilidade freqüentista não é probabilidade inversa
'Probabilidade inversa' Fisher 1930
Você faz uma noção da probabilidade de ser uma expressão bayesiana com um plano anterior
Contudo,
enquanto a matemática coincide (quando interpretada incorretamente, já que você pode obter P (x | a) = P (a | x), até uma constante, mas não são os mesmos termos), a construção e o significado são diferentes.
Probabilidade não pretende ser uma 'probabilidade bayesiana baseada em anteriores planos ou uniformados'. A probabilidade nem sequer é uma probabilidade e não segue as regras das distribuições de probabilidade (por exemplo, você não pode adicionar probabilidade para eventos diferentes e a integral não é igual a um); é somente quando você a multiplica por um plano anterior, que isso se torna uma probabilidade, mas o significado também mudou.
Algumas citações interessantes de 'probabilidade inversa' 1930 Fisher.
Métodos bayesianos e frequentistas são ferramentas diferentes :
Note que não é uma certa afirmação de probabilidade, que um método freqüentista fornece.
Consulte também 'Sobre o "erro provável" de um coeficiente de correlação reduzido de uma amostra pequena.' Fisher 1921, no qual Fisher demonstrou a diferença de seu método não ser uma probabilidade inversa bayesiana.
e
isso é probabilidade e probabilidade. Veja também a nota no final do artigo de Fishers de 1921, na qual ele fala mais sobre a confusão.
Observe novamente que a probabilidade é uma função de um conjunto de parâmetros, mas não uma função de densidade de probabilidade desse conjunto de parâmetros.
A probabilidade é usada para algo que você pode observar. Por exemplo, a probabilidade de um dado rolar seis. A probabilidade é usada para algo que você não pode observar, por exemplo, a hipótese de que um dado rola seis 1/6 do tempo.
Além disso, você pode gostar do trabalho de Fisher, no qual ele é muito mais leve em sua opinião sobre o teorema de Bayes (ainda descrevendo as diferenças). 'Sobre os fundamentos matemáticos das estatísticas teóricas' Fisher 1922 (especialmente a seção 6 'solução formal do problema de estimativa')
Mais
Se você puder entender e apreciar os comentários de Fisher sobre a diferença entre probabilidade inversa e o princípio da probabilidade, convém ler mais sobre as diferenças nos métodos freqüentes.
'Esboço de uma teoria da estimativa estatística baseada na teoria clássica da probabilidade' Neyman 1937
Que é um trabalho de 50 páginas e difícil de resumir. Mas ele lida com suas perguntas sobre imparcialidade , explica o método dos mínimos quadrados (e a diferença com o método da máxima verossimilhança) e fornece especificamente um tratamento dos intervalos de confiança (o intervalo freqüentista já não é semelhante, único e muito menos o mesmo que os intervalos bayesianos para priores planos).
Quanto ao teste F, não está claro o que, em nome de Laplace, você acha que está errado. Se você gosta de um uso precoce, pode procurar em 'Estudos sobre variação de culturas. II A resposta manurial das diferentes variedades de batata '1923 Fisher e Mackenzie
Este artigo tem a expressão de anova em um modelo linear reconhecível, subdividindo as somas de quadrados entre grupos e dentro deles.
(no teste do artigo de 1923, o teste consiste em uma comparação das diferenças entre os logs dos desvios padrão da amostra com um erro padrão calculado para essa diferença que é determinada pela soma dos graus de liberdade . Trabalhos posteriores tornam essas expressões mais sofisticadas que levam à distribuição F, de modo que podem difundir as idéias que se pode ter sobre ela. Mas, em essência, sem o malabarismo técnico devido a distribuições mais exatas para números pequenos, sua origem é muito parecida com um teste z).12d1+12d2
fonte