Estou vendo alguns slides de palestras em um curso de ciência de dados que pode ser encontrado aqui:
https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf
Infelizmente, não consigo ver o vídeo desta palestra e, a certa altura do slide, o apresentador tem o seguinte texto:
Alguns princípios fundamentais
Pense como um bayesiano, verifique como um freqüentista (reconciliação)
Alguém sabe o que isso realmente significa? Sinto que há uma boa visão sobre essas duas escolas de pensamento a serem reunidas a partir disso.
Respostas:
A principal diferença entre as escolas bayesianas e freqüentistas de estatística surge devido a uma diferença na interpretação da probabilidade. Uma probabilidade bayesiana é uma afirmação sobre a crença pessoal de que um evento ocorrerá (ou já ocorreu). Uma probabilidade frequentista é uma afirmação sobre a proporção de eventos semelhantes que ocorrem no limite à medida que o número desses eventos aumenta.
Para mim, "pensar como um bayesiano" significa atualizar sua crença pessoal à medida que novas informações surgem e "verificar [ou se preocupar] como um freqüentador" significa se preocupar com o desempenho de procedimentos estatísticos agregados ao longo do tempo em que esses procedimentos são usados, por exemplo, qual é a cobertura de intervalos confiáveis, quais são as taxas de erro do tipo I / II, etc.
fonte
Estatísticas bayesianas resumem crenças, enquanto estatísticas freqüentistas resumem evidências. Os bayesianos vêem a probabilidade como um grau de crença. Esse tipo de raciocínio inclusivo e generativo é útil para formular hipóteses. Por exemplo, os bayesianos podem atribuir arbitrariamente alguma probabilidade à noção de que a lua é feita de queijo verde, independentemente de os astronautas terem conseguido viajar para lá para verificar isso. Essa hipótese talvez seja apoiada pela idéia de que, de longe, a lua parececomo queijo verde. Os freqüentistas não podem conceber singularmente uma hipótese que seja mais do que um homem de palha, nem podem dizer que as evidências favorecem uma hipótese sobre outra. Mesmo a probabilidade máxima gera apenas uma estatística "mais consistente com o que foi observado". Formalmente, as estatísticas bayesianas nos permitem pensar fora da caixa e propor idéias defensáveis a partir dos dados. Mas isso é estritamente hipótese gerando na natureza.
As estatísticas freqüentistas são melhor aplicadas para confirmar hipóteses. Quando um experimento é conduzido bem, as estatísticas freqüentistas fornecem um contexto de "observador independente" ou "empírico" às descobertas, evitando os anteriores. Isso é consistente com a filosofia da ciência de Karl Popper. O ponto de evidência não é promulgar uma certa idéia. Muitas evidências são consistentes com hipóteses incorretas. As evidências podem meramente falsificar crenças.
A influência dos anteriores é geralmente vista como um viés no raciocínio estatístico. Como você sabe, podemos inventar um grande número de razões pelas quais as coisas acontecem. Psicologicamente, muitas pessoas acreditam que nosso viés de observador é o resultado de antecedentes em nosso cérebro que nos impedem de realmente ponderar o que vemos. "A esperança nubla a observação", como a Reverenda Madre disse em Dune. Popper tornou essa ideia rigorosa.
Isso teve grande importância histórica em algumas das maiores experiências científicas do nosso tempo. Por exemplo, John Snow coletou meticulosamente evidências da epidemia de Cólera e concluiu astutamente que a cólera não é causada por privação moral e apontou que as evidências eram altamente consistentes com a contaminação de esgoto: observe que ele não concluiuisso, os achados de Snow foram anteriores à descoberta de bactérias e não havia entendimento mecanicista ou etiológico. Um discurso semelhante é encontrado em Origem das espécies. Na verdade, não sabíamos se a lua era feita de queijo verde até os astronautas realmente pousarem na superfície e coletar amostras. Nesse ponto, os posteriores bayesianos atribuíram uma probabilidade muito, muito baixa a qualquer outra possibilidade, e os freqüentistas, na melhor das hipóteses, podem dizer que as amostras são altamente inconsistentes com qualquer coisa, exceto a poeira da lua.
Em resumo, as estatísticas bayesianas são passíveis de gerar hipóteses e as estatísticas freqüentes são passíveis de confirmação de hipóteses. Garantir que os dados sejam coletados independentemente nesses empreendimentos é um dos maiores desafios que os estatísticos modernos enfrentam.
fonte
Plenty of evidence is consistent with incorrect hypotheses
.Pelo
Cliff AB
comentário de Per ao OP, parece que eles estão caminhando para uma filosofia empírica bayesiana. Existem três principais escolas de pensamento bayesiana, e Bayes empírico estima dados anteriores, geralmente com métodos freqüentadores. Isso não está exatamente de acordo com a citação (que implica Bayes na frente, preocupações freqüentadas posteriormente), mas não devemos ignorarCliff AB
o excelente comentário de.Além disso, havia, e ainda pode haver, uma escola de Bayesiano, que você não precisa verificar nada após um procedimento Bayesiano. O pensamento mais moderno usaria verificações preditivas posteriores, e talvez esse tipo de abordagem seja "verifique suas respostas" a que a citação se refere.
Além disso, a filosofia freqüentista se preocupa mais com procedimentos do que com inferências a partir de dados. Então, talvez isso também seja uma pista do significado da citação.
fonte
No contexto dessa aula de ciência de dados, minha interpretação de "verificar como um freqüentador" é que você avalia o desempenho de sua função de previsão ou função de decisão em dados de validação retidos. O conselho para "pensar como um bayesiano" expressa a opinião de que uma função de previsão derivada de uma abordagem bayesiana geralmente dará bons resultados.
fonte
Parece que "pense como um bayesiano, cheque como um freqüentador" refere-se à abordagem de alguém em design e análise estatística. Pelo que entendi, o pensamento bayesiano envolve alguma crença sobre situações anteriores (experimental ou estatisticamente), digamos, por exemplo, que a média das notas de leitura para a quarta série é de 80 palavras por minuto, e que alguma intervenção pode aumentar para 90 palavras por minuto . Essas são crenças baseadas em estudos e hipóteses anteriores. O pensamento freqüentista extrapola as descobertas (da intervenção) para obter intervalos de confiança ou outras estatísticas baseadas na frequência ou probabilidade teórica e prática desses resultados que acontecem novamente (ou seja, com que frequência). Por exemplo, a pontuação de leitura pós-intervenção pode ser de 91 palavras por minuto, com um intervalo de confiança de 95% de 85 a 97 palavras por minuto e um valor p associado (valor de probabilidade) sendo diferente da pontuação pré-intervenção. Assim, 95% das vezes, as novas pontuações de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção. os novos escores de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção. os novos escores de leitura ficariam entre 85 e 97 palavras por minuto após a intervenção. Portanto, "pense como um bayesiano" - ou seja, teorize, faça hipóteses, observe as evidências anteriores - e "verifique como um freqüentador" - ou seja, com que frequência esses resultados experimentais ocorreriam e qual a probabilidade de serem devidos a eles. oportunidade ao invés da intervenção.
fonte