Frequentismo e Priores

17

Robby McKilliam diz em um comentário a este post:

Deve-se ressaltar que, do ponto de vista dos freqüentadores, não há razão para que você não possa incorporar o conhecimento prévio ao modelo. Nesse sentido, a visão frequentista é mais simples, você só tem um modelo e alguns dados. Não há necessidade de separar as informações anteriores do modelo

Além disso, aqui , @jbowman diz que os freqüentadores usam a regularização por uma função de custo / penalidade, enquanto os bayesianos podem fazer isso a priori:

Os freqüentistas perceberam que a regularização era boa e costumam usá-la hoje em dia - e os anteriores Bayesianos podem ser facilmente interpretados como regularização.

Então, minha pergunta é: os freqüentistas em geral podem incorporar em seus modelos o que os bayesianos especificam como anteriores? Tomando a regularização como exemplo, a função de custo / penalidade está realmente integrada ao modelo ou é um meio puramente artificial de ajustar a solução (além de torná-la única)?

Patrick
fonte
Um moderador poderia notificar jbowman e Robby, para que eles pudessem elaborar? Ou isso não é apropriado?
5608 Patrick
1
Patrick, você pode notificar qualquer membro deste site usando a construção "@". Eu ilustrei isso com uma pequena edição.
whuber
Funciona nos dois lugares :-).
whuber
Puxa, @whuber, eu não fui notificado ... talvez edições não façam isso? Agora estou curioso.
jbowman
1
OK, parece que eu estava errado : o mecanismo "@" funciona nos comentários, não nas perguntas. (Mas o jbowman encontrou essa pergunta de qualquer maneira.)
whuber

Respostas:

8

pβ(uma,b)". Todo mundo usa a Regra de Bayes quando você realmente tem informações anteriores desse tipo (a Regra de Bayes apenas define probabilidade condicional, não é uma coisa apenas bayesiana); portanto, na vida real, o frequentista e o bayesiano usariam a mesma abordagem, e incorpore as informações ao modelo através da Regra de Bayes. (Advertência: a menos que o tamanho da amostra seja grande o suficiente para que você tenha certeza de que as informações anteriores não terão efeito sobre os resultados). No entanto, a interpretação dos resultados é, de claro, diferente.

A dificuldade surge, especialmente do ponto de vista filosófico, à medida que o conhecimento se torna menos objetivo / experimental e mais subjetivo. Quando isso acontece, o freqüentista provavelmente ficará menos inclinado a incorporar essas informações ao modelo, enquanto o bayesiano ainda possui alguns mecanismos mais ou menos formais para fazê-lo, apesar das dificuldades de obter um prévio subjetivo.

eu(θ;x)p(θ)registrop(θ)

θ~=maxθ{registroeu(θ;x)+registrop(θ)}

p(θ)θθ~

Mais uma vez, a dificuldade surge do ponto de vista filosófico. Por que escolher uma função de regularização em detrimento de outra? Um bayesiano pode fazer isso - mudando para uma visão prévia - avaliando as informações anteriores. Um frequentista teria mais dificuldade (seria incapaz de) justificar uma escolha com base nesses argumentos, mas provavelmente o faria em grande parte com base nas propriedades da função de regularização aplicada ao seu tipo de problema, conforme aprendido na articulação trabalho / experiência de muitos estatísticos. OTOH, Bayesianos (pragmáticos) também fazem isso com os anteriores - se eu tivesse US $ 100 para cada artigo sobre os anteriores por variações que li ...

Outros "pensamentos": ignorei toda a questão da seleção de uma função de probabilidade assumindo que ela não é afetada pelo ponto de vista freqüentista / bayesiano. Tenho certeza que na maioria dos casos é, mas posso imaginar que em situações incomuns seria, por exemplo, por razões computacionais.

θθ

jbowman
fonte
Então, se eu entendi direito: tecnicamente, formalmente, um freqüentador pode regularizar o quanto quiser, mas terá problemas em justificá-lo. Um bayesiano ainda pode ter problemas para quantificar sua regularização, mas qualitativamente, ele tem uma maneira consistente de incorporá-la.
Patrick
O bayesiano também não é obrigado a usar uma estimativa pontual de MAP, tendo acesso a uma distribuição posterior completa - mas o frequentista também não precisa maximizar uma probabilidade de log regularizada, podendo usar várias estimativas robustas, ou método de -momentos, etc., se disponível. O Frequentist não precisa maximizar. Mas ainda é um método disponível para os freqüentistas, se assim o entenderem, certo? Meu palpite é que, por razões históricas (sem computadores!), Os freqüentistas têm muitos estimadores inteligentes nas mangas que usam, em vez de calcular uma função de probabilidade total.
Patrick
5

Com o objetivo de responder a essa pergunta, é útil definir o frequentismo como "interessar as propriedades da distribuição amostral de funções dos dados". Tais funções podem ser estimadores de pontos, valores de p das estatísticas dos testes, intervalos de confiança, resultados dos testes de Neyman-Pearson ou basicamente qualquer outra coisa que você possa imaginar. O freqüentismo não especifica como construir estimadores, valores-p, etc., em generalidade total, embora existam algumas diretrizes, por exemplo, use estatísticas suficientes se estiverem disponíveis, use estatísticas essenciais se estiverem disponíveis, etc. perspectiva, as informações anteriores não são incorporadas ao modelo em si , mas aos dados de mapeamento de funções para a saída da função.

O "interesse" mencionado acima está em propriedades consideradas importantes para inferência, como falta de viés, consistência assintótica, variação, erro quadrático médio, erro absoluto médio, cobertura de confiança (especialmente nominal versus real), controle de erro Tipo I e qualquer outra coisa caso contrário, com importância óbvia ou intuitiva para aprender com os dados. Essas propriedades podem ser avaliadas (por simulação, se nada mais) se a função incorpora ou não informações anteriores.

Interesses específicos se concentram em propriedades que podem ser conhecidas por conter, independentemente dos valores reais dos parâmetros subjacentes ao processo de geração de dados. Por exemplo, no modelo de IDI normal com variação conhecida, a média dos dados é imparcial e assintoticamente consistente para a média da distribuição, não importa qual seja. Por outro lado, um estimador de retração (uma média ponderada da média dos dados e uma estimativa anterior da média da distribuição) apresenta um erro ao quadrado médio mais baixo se a média da distribuição estiver próxima da estimativa anterior, mas um erro ao quadrado médio mais alto, caso contrário " herda "consistência assintótica da média dos dados.

Então, eu diria que é possível colocar informações anteriores no método de inferência, mas isso não entra no modelo. Uma ilustração muito boa das noções que descrevi no contexto de intervalos de confiança para propriedades físicas necessariamente não negativas é Feldman e Cousins, uma abordagem unificada para a análise estatística clássica de pequenos sinais .

Ciano
fonte