Pense como um bayesiano, verifique como um freqüentador: O que isso significa?

35

Estou vendo alguns slides de palestras em um curso de ciência de dados que pode ser encontrado aqui:

https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf

Infelizmente, não consigo ver o vídeo desta palestra e, a certa altura do slide, o apresentador tem o seguinte texto:

Alguns princípios fundamentais

Pense como um bayesiano, verifique como um freqüentista (reconciliação)

Alguém sabe o que isso realmente significa? Sinto que há uma boa visão sobre essas duas escolas de pensamento a serem reunidas a partir disso.

Luca
fonte
2
Pense que isso pode estar relacionado à verificação do modelo: consulte Por que um bayesiano não tem permissão para examinar os resíduos? .
Scortchi - Restabelece Monica
@ Scortchi Pelo que entendi, isso não tem a ver com a separação de conjuntos de dados de treinamento, validação e teste de uma maneira ou talvez um bayesiano não possa ajustar os anteriores mesmo durante a fase de treinamento do modelo (para usar um termo ML Aqui). No entanto, ainda estou confuso quanto ao que significa por cheque como um frequencista ...
Luca
11
Um bayesiano "adequado" nunca ajusta seus anteriores, mas apenas os atualiza de acordo com as novas informações, usando o Teorema de Bayes. Mas estou apenas adivinhando o que esse "princípio-chave" pode ter.
Scortchi - Restabelece Monica
4
Não consegui carregar o link. Meu palpite é que eles significam que, mesmo que você use métodos bayesianos, você deve se preocupar com as características operacionais freqüentistas: se estiver gerando intervalos credíveis de 95% extremamente apertados, mas na prática cubra o verdadeiro parâmetro de interesse em 20% das vezes, você deveria estar preocupado? Um bayesiano excessivamente rígido pode dizer "não" (mas existem muito poucos bayesianos de tal rigidez).
Cliff AB
3
Olhando para o futuro nos slides futuros, eles estão endossando o Bayes empírico. Isso pode ser visto no seguinte conjunto de slides
Cliff AB

Respostas:

32

A principal diferença entre as escolas bayesianas e freqüentistas de estatística surge devido a uma diferença na interpretação da probabilidade. Uma probabilidade bayesiana é uma afirmação sobre a crença pessoal de que um evento ocorrerá (ou já ocorreu). Uma probabilidade frequentista é uma afirmação sobre a proporção de eventos semelhantes que ocorrem no limite à medida que o número desses eventos aumenta.

Para mim, "pensar como um bayesiano" significa atualizar sua crença pessoal à medida que novas informações surgem e "verificar [ou se preocupar] como um freqüentador" significa se preocupar com o desempenho de procedimentos estatísticos agregados ao longo do tempo em que esses procedimentos são usados, por exemplo, qual é a cobertura de intervalos confiáveis, quais são as taxas de erro do tipo I / II, etc.

jaradniemi
fonte
11
Obrigado pela sua resposta. Conciso e eficaz, mesmo para leigos como eu!
Luca
2
Não é possível checar ou se preocupar como um bayesiano investigando a influência de priores ou usando um não informativo? Isso é aplicável apenas a análises seqüenciais? Tem havido muito trabalho sobre onde as estatísticas bayesianas e freqüentistas se cruzam com análises sequenciais, a "atualização de crenças" não é essencial e as estatísticas seqeuenciais podem ser rigorosas no cenário freqüentista.
Adamo
11
Sim, é possível se preocupar como um bayesiano, por exemplo, investigando a influência do seu prior. Não, minha resposta não se aplica apenas a análises seqüenciais, ou seja, as novas informações podem surgir de uma só vez.
jaradniemi
15

Estatísticas bayesianas resumem crenças, enquanto estatísticas freqüentistas resumem evidências. Os bayesianos vêem a probabilidade como um grau de crença. Esse tipo de raciocínio inclusivo e generativo é útil para formular hipóteses. Por exemplo, os bayesianos podem atribuir arbitrariamente alguma probabilidade à noção de que a lua é feita de queijo verde, independentemente de os astronautas terem conseguido viajar para lá para verificar isso. Essa hipótese talvez seja apoiada pela idéia de que, de longe, a lua parececomo queijo verde. Os freqüentistas não podem conceber singularmente uma hipótese que seja mais do que um homem de palha, nem podem dizer que as evidências favorecem uma hipótese sobre outra. Mesmo a probabilidade máxima gera apenas uma estatística "mais consistente com o que foi observado". Formalmente, as estatísticas bayesianas nos permitem pensar fora da caixa e propor idéias defensáveis ​​a partir dos dados. Mas isso é estritamente hipótese gerando na natureza.

As estatísticas freqüentistas são melhor aplicadas para confirmar hipóteses. Quando um experimento é conduzido bem, as estatísticas freqüentistas fornecem um contexto de "observador independente" ou "empírico" às descobertas, evitando os anteriores. Isso é consistente com a filosofia da ciência de Karl Popper. O ponto de evidência não é promulgar uma certa idéia. Muitas evidências são consistentes com hipóteses incorretas. As evidências podem meramente falsificar crenças.

A influência dos anteriores é geralmente vista como um viés no raciocínio estatístico. Como você sabe, podemos inventar um grande número de razões pelas quais as coisas acontecem. Psicologicamente, muitas pessoas acreditam que nosso viés de observador é o resultado de antecedentes em nosso cérebro que nos impedem de realmente ponderar o que vemos. "A esperança nubla a observação", como a Reverenda Madre disse em Dune. Popper tornou essa ideia rigorosa.

Isso teve grande importância histórica em algumas das maiores experiências científicas do nosso tempo. Por exemplo, John Snow coletou meticulosamente evidências da epidemia de Cólera e concluiu astutamente que a cólera não é causada por privação moral e apontou que as evidências eram altamente consistentes com a contaminação de esgoto: observe que ele não concluiuisso, os achados de Snow foram anteriores à descoberta de bactérias e não havia entendimento mecanicista ou etiológico. Um discurso semelhante é encontrado em Origem das espécies. Na verdade, não sabíamos se a lua era feita de queijo verde até os astronautas realmente pousarem na superfície e coletar amostras. Nesse ponto, os posteriores bayesianos atribuíram uma probabilidade muito, muito baixa a qualquer outra possibilidade, e os freqüentistas, na melhor das hipóteses, podem dizer que as amostras são altamente inconsistentes com qualquer coisa, exceto a poeira da lua.

Em resumo, as estatísticas bayesianas são passíveis de gerar hipóteses e as estatísticas freqüentes são passíveis de confirmação de hipóteses. Garantir que os dados sejam coletados independentemente nesses empreendimentos é um dos maiores desafios que os estatísticos modernos enfrentam.

AdamO
fonte
11
Obrigado pela resposta. O que você quis dizer quando disse Plenty of evidence is consistent with incorrect hypotheses.
Luca
2
@Luca Um exemplo estatístico comum pode ser encontrado em confusão. Por exemplo, eu poderia dizer: "Fumar proporciona aos adolescentes melhor função pulmonar". Eu poderia ir mais longe para racionalizar isso dizendo que fumar é um estimulante que estimula melhor atividade física, apetite mais saudável e socialização saudável. Se eu coletasse dados, eles realmente mostrariam que os adolescentes que fumam têm melhor função pulmonar. A conclusão associativa está correta, mas a causal é falsa. A relação é confundida com a idade, pois as crianças mais velhas têm maior probabilidade de fumar.
Adamo
Obrigado! Aprendi muito com esta resposta muito bem escrita.
Luca
5

Pelo Cliff ABcomentário de Per ao OP, parece que eles estão caminhando para uma filosofia empírica bayesiana. Existem três principais escolas de pensamento bayesiana, e Bayes empírico estima dados anteriores, geralmente com métodos freqüentadores. Isso não está exatamente de acordo com a citação (que implica Bayes na frente, preocupações freqüentadas posteriormente), mas não devemos ignorar Cliff ABo excelente comentário de.

Além disso, havia, e ainda pode haver, uma escola de Bayesiano, que você não precisa verificar nada após um procedimento Bayesiano. O pensamento mais moderno usaria verificações preditivas posteriores, e talvez esse tipo de abordagem seja "verifique suas respostas" a que a citação se refere.

Além disso, a filosofia freqüentista se preocupa mais com procedimentos do que com inferências a partir de dados. Então, talvez isso também seja uma pista do significado da citação.

Wayne
fonte
Acho que você se referiu ao meu primeiro comentário, e meu segundo comentário foi que, após uma inspeção mais detalhada, você está certo de que eles se referem muito especificamente a Bayes empíricos. Fiquei realmente desapontado que a citação fosse simplesmente um endosso de Bayes empírico, em vez de um chamado mais geral para considerar as vantagens de ambas as escolas de pensamento. Ah bem.
Cliff AB
2

No contexto dessa aula de ciência de dados, minha interpretação de "verificar como um freqüentador" é que você avalia o desempenho de sua função de previsão ou função de decisão em dados de validação retidos. O conselho para "pensar como um bayesiano" expressa a opinião de que uma função de previsão derivada de uma abordagem bayesiana geralmente dará bons resultados.

DavidR
fonte
(interpretando o advogado do diabo :) Por que a abordagem bayesiana deveria dar "bons resultados" e o freqüentador não?
Tim
Os métodos bayesianos são prescritivos sobre a abordagem. A estatística freqüentista pode ser vista como parte da teoria da decisão e fornece uma estrutura para avaliar qualquer função de decisão (seja baseada no princípio bayesiano ou em algum princípio freqüentador). Certos métodos, como os métodos de máxima verossimilhança, são frequentemente usados ​​em um contexto freqüentista porque eles têm boas propriedades freqüentistas (por exemplo, assintoticamente eles fazem a coisa certa e chegam lá mais rapidamente que a maioria dos outros métodos). Um método bayesiano certamente poderia ser usado por um frequentista, mas eles teriam diferentes razões para usá-lo.
DavidR
Os métodos bayesianos também têm muito em comum com a teoria da decisão. Também não acho que os métodos bayesianos possam ser usados ​​no contexto freqüentista (como você imaginaria usar priors no contexto freqüentista?) - é o contrário: muitos métodos freqüentadores têm interpretações bayesianas. Não creio que haja motivo para discutir isso, o que estou dizendo é que suas declarações simplificam um pouco as coisas.
Tim
Pode-se provar muitas propriedades freqüentes agradáveis ​​sobre abordagens bayesianas; portanto, nesse sentido, fazer algo bayesiano é bastante seguro, desde que você tenha dados suficientes.
DavidR
11
Suponha que eu queira estimar a probabilidade p de cabeças em um lançamento de moeda. Como bayesiano, começaria com um prior na probabilidade p, observaria alguns dados e depois obteria um posterior no p. Precisamos apresentar uma estimativa pontual de p, e escolho usar a média da minha distribuição posterior como minha estimativa pontual. No total, isso descreve um método para passar dos dados para uma estimativa pontual. Este método pode ser avaliado de maneira freqüente: por exemplo, é tendencioso? consistente? assintoticamente eficiente? O fato de um prior estar envolvido não deveria, por si só, interessar ao frequentista.
DavidR
1

Parece que "pense como um bayesiano, cheque como um freqüentador" refere-se à abordagem de alguém em design e análise estatística. Pelo que entendi, o pensamento bayesiano envolve alguma crença sobre situações anteriores (experimental ou estatisticamente), digamos, por exemplo, que a média das notas de leitura para a quarta série é de 80 palavras por minuto, e que alguma intervenção pode aumentar para 90 palavras por minuto . Essas são crenças baseadas em estudos e hipóteses anteriores. O pensamento freqüentista extrapola as descobertas (da intervenção) para obter intervalos de confiança ou outras estatísticas baseadas na frequência ou probabilidade teórica e prática desses resultados que acontecem novamente (ou seja, com que frequência). Por exemplo, a pontuação de leitura pós-intervenção pode ser de 91 palavras por minuto, com um intervalo de confiança de 95% de 85 a 97 palavras por minuto e um valor p associado (valor de probabilidade) sendo diferente da pontuação pré-intervenção. Assim, 95% das vezes, as novas pontuações de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção. os novos escores de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção. os novos escores de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção.

Jeremy
fonte
2
Sua última frase - a parte "cheque como um frequentista" - não tem nada a ver com o cenário freqüentista: a estimativa bayesiana também diria "com que frequência" esperamos que algo aconteça ou "qual a probabilidade" ...
Tim