Alguém pode dar um bom resumo das diferenças entre a abordagem bayesiana e a abordagem freqüentista da probabilidade?
Pelo que entendi:
A visão dos freqüentadores é que os dados são uma amostra aleatória repetível (variável aleatória) com uma frequência / probabilidade específica (que é definida como a frequência relativa de um evento à medida que o número de tentativas se aproxima do infinito). Os parâmetros probabilidades subjacentes e permanecem constantes durante este processo repetitivo e que a variação é devido a variabilidade em e não a distribuição de probabilidade (o qual é fixado por um determinado acontecimento / processo).
A visão bayesiana é que os dados são fixos enquanto a frequência / probabilidade de um determinado evento pode mudar, o que significa que os parâmetros da distribuição mudam. Com efeito, os dados que você obtém alteram a distribuição anterior de um parâmetro que é atualizado para cada conjunto de dados.
Para mim, parece que a abordagem freqüentista é mais prática / lógica, pois parece razoável que os eventos tenham uma probabilidade específica e que a variação esteja em nossa amostragem.
Além disso, a maioria das análises de dados dos estudos geralmente é feita usando a abordagem freqüentista (ou seja, intervalos de confiança, teste de hipóteses com valores de p etc.), pois é facilmente compreensível.
Fiquei imaginando se alguém poderia me dar um resumo rápido de sua interpretação da abordagem bayesiana versus freqüentista, incluindo equivalentes estatísticos bayesianos do valor-p freqüentista e do intervalo de confiança. Além disso, exemplos específicos de onde um método seria preferível ao outro são apreciados.
Respostas:
Na abordagem freqüentista , afirma-se que o único sentido em que as probabilidades têm significado é como o valor limitador do número de sucessos em uma sequência de tentativas, ou seja, como
onde é o número de sucessos é o número de tentativas. Em particular, não faz sentido associar uma distribuição de probabilidade a um parâmetro .k n
Por exemplo, considere as amostras da distribuição de Bernoulli com o parâmetro (ou seja, eles têm o valor 1 com probabilidade e 0 com probabilidade ). Podemos definir a taxa de sucesso da amostra como p p 1 - pX1,…,Xn p p 1−p
e falar sobre a distribuição de p condicional no valor de p , mas não faz sentido para inverter a questão e começar a falar sobre a distribuição de probabilidade de p condicional no valor observado de p . Em particular, isso significa que, quando calculamos um intervalo de confiança, interpretamos os fins do intervalo de confiança como variáveis aleatórias e falamos sobre "a probabilidade de que o intervalo inclua o parâmetro true", em vez de "a probabilidade de o parâmetro ser dentro do intervalo de confiança ".p^ p p p^
Na abordagem bayesiana , interpretamos as distribuições de probabilidade como quantificando nossa incerteza sobre o mundo. Em particular, isso significa que agora podemos falar significativamente sobre distribuições de probabilidade de parâmetros, pois, embora o parâmetro seja fixo, nosso conhecimento de seu verdadeiro valor pode ser limitado. No exemplo acima, podemos inverter a distribuição de probabilidade usando a lei de Bayes, para darf(p^∣p)
O problema é que temos de introduzir a prévia distribuição em nossa análise - isto reflete nossa crença sobre o valor de antes de ver os valores reais do X i . O papel do prior é frequentemente criticado na abordagem freqüentista, pois argumenta que ele introduz a subjetividade no mundo de probabilidades austero e objeto.p Xi
Na abordagem bayesiana, não se fala mais em intervalos de confiança, mas em vez de intervalos credíveis, que têm uma interpretação mais natural - dado um intervalo credível de 95%, podemos atribuir uma probabilidade de 95% de que o parâmetro esteja dentro do intervalo.
fonte
Você está certo sobre sua interpretação da probabilidade freqüentista: a aleatoriedade nesta configuração é meramente devido à amostragem incompleta. Do ponto de vista bayesiano, as probabilidades são "subjetivas", pois refletem a incerteza de um agente sobre o mundo. Não é certo dizer que os parâmetros das distribuições "mudam". Como não temos informações completas sobre os parâmetros, nossa incerteza sobre eles muda à medida que coletamos mais informações.
Ambas as interpretações são úteis em aplicações e a que é mais útil depende da situação. Você pode conferir o blog de Andrew Gelman para obter idéias sobre aplicações bayesianas. Em muitas situações, o que os bayesianos chamam de "anteriores" os freqüentistas chamam de "regularização" e, portanto, da minha perspectiva, a excitação pode sair da sala rapidamente. De fato, de acordo com o teorema de Bernstein-von Mises, a inferência Bayesiana e Frequentista são na verdade assintoticamente equivalentes sob suposições bastante fracas (embora notavelmente o teorema falhe em distribuições de dimensões infinitas). Você pode encontrar várias referências sobre isso aqui .
Desde que você pediu interpretações: acho que o ponto de vista freqüentista faz muito sentido ao modelar experimentos científicos como ele foi projetado para fazer. Para algumas aplicações em aprendizado de máquina ou para modelagem de raciocínio indutivo (ou aprendizado), a probabilidade bayesiana faz mais sentido para mim. Existem muitas situações nas quais a modelagem de um evento com uma probabilidade fixa "verdadeira" parece implausível.
Para um exemplo de brinquedo voltando a Laplace , considere a probabilidade de o sol nascer amanhã. Da perspectiva freqüentista, temos que postular algo como infinitos universos para definir a probabilidade. Como bayesianos, existe apenas um universo (ou pelo menos, não precisa haver muitos). Nossa incerteza sobre o nascer do sol é abafada por nossa crença prévia muito, muito forte, de que ele voltará a nascer amanhã.
fonte
A interpretação bayesiana da probabilidade é uma interpretação do grau de crença.
fonte
Chris dá uma boa explicação simplista que diferencia adequadamente as duas abordagens de probabilidade. Mas a teoria freqüentista da probabilidade é mais do que apenas olhar para a proporção de sucessos a longo prazo. Também consideramos dados amostrados aleatoriamente a partir de uma distribuição e estimamos parâmetros da distribuição, como média e variância, tomando certos tipos de médias dos dados (por exemplo, para a média, é a média aritmética das observações. A teoria freqüentista associa uma probabilidade com a estimativa que é chamada de distribuição amostral.
Na teoria da frequência, podemos mostrar parâmetros como a média obtida pela média das amostras que a estimativa convergirá para o parâmetro verdadeiro. A distribuição amostral é usada para descrever a proximidade da estimativa com o parâmetro para qualquer tamanho fixo de amostra n. Fechar é definido por uma medida de precisão (por exemplo, erro quadrático médio).
At Chris aponta para qualquer parâmetro, como a média, o bayesiano atribui uma distribuição de probabilidade anterior a ele. Dado os dados, a regra de Bayes é usada para calcular uma distribuição posterior para o parâmetro. Para o bayesiano, toda inferência sobre o parâmetro é baseada nessa distribuição posterior.
Os freqüentistas constroem intervalos de confiança que são intervalos de valores plausíveis para o parâmetro. Sua construção é baseada na probabilidade freqüente de que, se o processo usado para gerar o intervalo fosse repetido várias vezes para amostras independentes, a proporção de intervalos que realmente incluiria o valor real do parâmetro seria pelo menos algum nível de confiança pré-especificado (por exemplo, 95% )
Os bayesianos usam a distribuição a posteriori para o parâmetro para construir regiões credíveis. Estas são simplesmente regiões no espaço do parâmetro sobre o qual a distinção posterior é integrada para obter uma probabilidade pré-especificada (por exemplo, 0,95). As regiões credíveis são interpretadas pelos bayesianos como regiões que têm uma alta probabilidade (por exemplo, de 0,95 pré-especificada) de incluir o valor verdadeiro do parâmetro.
fonte
Do ponto de vista do "mundo real", encontro uma grande diferença entre uma "solução" freqüentista e uma clássica ou bayesiana que se aplica a pelo menos três cenários principais. A diferença na seleção de uma metodologia depende se você precisa de uma solução impactada pela probabilidade da população ou de uma que seja impactada pela probabilidade individual. Exemplos abaixo:
Se houver uma probabilidade conhecida de 5% de que homens acima de 40 anos morram em um determinado ano e exijam pagamentos de seguro de vida, uma companhia de seguros pode usar a porcentagem de POPULAÇÃO de 5% para estimar seus custos, mas dizer que cada homem acima de 40 anos só tem uma chance de 5% de morrer ... não tem sentido ... Porque 5% têm 100% de probabilidade de morrer - o que é uma abordagem freqüentista. No nível individual, o evento ocorre (100% de probabilidade) ou não (0% de probabilidade). Contudo, com base nessas informações limitadas, não é possível prever os indivíduos com 100% de probabilidade de morrer e os 5 % de probabilidade média da população é inútil no nível individual.
O argumento acima se aplica igualmente a incêndios em edifícios, e é por isso que os aspersores são necessários em todos os edifícios de uma população.
Ambos os argumentos acima se aplicam igualmente às culatras, danos ou "hacks" dos sistemas de informação. As porcentagens da população são inúteis, portanto todos os sistemas devem ser salvaguardados.
fonte
A escolha da interpretação depende da pergunta. Se você deseja conhecer as probabilidades de um jogo de azar, a interpretação clássica resolverá seu problema, mas os dados estatísticos são inúteis, pois dados justos não têm memória.
Se você deseja prever um evento futuro com base em experiências passadas, a interpretação freqüentista é correta e suficiente.
Se você não sabe se um evento passado ocorreu e deseja avaliar a probabilidade de ocorrência, deve considerar suas crenças anteriores, isto é, o que você já sabe sobre a chance do evento ocorrer e atualizar sua crença quando adquirir novos dados.
Como a pergunta é sobre um certo grau de crença e cada pessoa pode ter uma idéia diferente sobre os anteriores, a interpretação é necessariamente subjetiva, também conhecida como bayesiana.
fonte