O que há de errado com os quadrinhos Frequentists vs. Bayesians do XKCD?

113

xkcd número cômico 1132

Este quadrinho do xkcd (Frequentists vs. Bayesians) zomba de um estatístico freqüentista que obtém um resultado obviamente errado.

No entanto, parece-me que seu raciocínio está realmente correto no sentido em que segue a metodologia freqüentista padrão.

Então, minha pergunta é "ele aplica corretamente a metodologia freqüentista?"

  • Se não: qual seria uma inferência freqüente correta nesse cenário? Como integrar o "conhecimento prévio" sobre a estabilidade do sol na metodologia freqüentista?
  • Se sim: wtf? ;-)
repied2
fonte
17
Discussão no blog de Gelman: andrewgelman.com/2012/11/16808
Glen
5
Eu acho que muita coisa está errada, tanto do ponto de vista freqüentista quanto bayesiano. Minha maior crítica cada uma: Primeiro, os valores de P são, em última análise, heurísticas e são propriedades de várias coisas, incluindo o problema estatístico, dados e experimento. Aqui, todos os três são deturpados grosseiramente para essa pergunta em particular. Segundo, o "bayesiano" utiliza uma abordagem teórica da decisão que não precisa ser bayesiana. É engraçado, no entanto.
Momo
5
Para tirá-lo do domínio das estatísticas ... o sol não é suficientemente grande para se tornar nova. QED, o bayesiano está certo. ( O Sol, ao contrário, se tornar uma gigante vermelha )
Ben Brocka
3
@Glen et alii, em particular, observe a resposta de Randall Munroe para Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel
2
A razão pela qual o estatístico freqüentista aqui é estúpido não é porque ele é freqüentador, mas porque ele obviamente sabe como a máquina funciona, portanto sabe que é uma medida inadequada - e faz uma inferência de qualquer maneira.
RVL

Respostas:

44

A questão principal é que o primeiro experimento (Sun gone nova) não é repetível, o que o torna altamente inadequado para a metodologia frequentista que interpreta a probabilidade como estimativa da frequência com que um evento está ocorrendo e que podemos repetir o experimento várias vezes. Por outro lado, a probabilidade bayesiana é interpretada como nosso grau de crença, fornecendo todo o conhecimento prévio disponível, tornando-o adequado para o raciocínio de bom senso sobre eventos únicos. O experimento de arremesso de dados é repetível, mas acho muito improvável que qualquer freqüentador intencionalmente ignore a influência do primeiro experimento e tenha tanta confiança na significância dos resultados obtidos.

Embora pareça que o autor zomba da confiança freqüentista em experimentos repetíveis e de sua desconfiança em relação aos anteriores, dando a inadequação da configuração experimental à metodologia freqüentista, eu diria que o tema real desse quadrinho não é a metodologia frequistista, mas o seguimento cego da metodologia inadequada em geral. Seja engraçado ou não, é com você (para mim é), mas acho que é mais enganoso do que esclarece as diferenças entre as duas abordagens.

Matija Piskorec
fonte
1
(+1) Uma boa referência sobre essa suposição forte e crucial de repetibilidade no freqüentismo é a Inferência Estatística na Ciência (2000) , capítulo 1. (Embora existam tantas questões que é difícil dizer qual é a principal )
36
Não é tão rápido com o argumento da repetibilidade ... Primeiro, o experimento que pode ser repetido é a consulta da máquina e não o sol se tornando nova. A verdade é que esse objeto de inferência é fixo mas desconhecido. O experimento de consulta certamente pode ser repetido e, se fosse por mais algumas vezes, a estratégia freqüentista poderia facilmente parecer razoável.
conjugateprior
6
Em segundo lugar, não se deve ser muito rigoroso com os negócios de repetibilidade, para que os freqüentadores não fiquem impedidos de deduzir nada em situações não experimentais. Suponha por um momento que 'sol se torne nova' foi o evento candidato. Não sou físico, mas disseram-me que o evento 'o sol se torna novo' acontece com bastante frequência (não muito por aqui), então isso me parece uma repetição. De qualquer forma, pessoas como David Cox (em 'Foundations of Statistics') dizem alegremente coisas como: "as repetições contempladas são quase sempre hipotéticas . Isso por si só não parece uma desvantagem".
conjugateprior
7
Poderíamos ver o sol como uma amostra aleatória de uma população de sóis em universos paralelos em que poderíamos, em princípio, repetir o experimento se tivéssemos um espelho quântico! ; o)
Dikran Marsupial
2
Por que a verificação do sol explodindo não é repetível? Verifico todas as manhãs e ainda não explodiu.
GKFX
27

Tanto quanto eu posso ver, o pouco freqüentador é razoável até aqui:

Seja a hipótese de que o sol não explodiu e seja a hipótese que possui. O valor p é, portanto, a probabilidade de observar o resultado (a máquina dizendo "sim") em . Supondo que a máquina detecte corretamente a presença de ausência de neutrinos, se a máquina disser "sim" em , é porque a máquina está mentindo para nós como resultado de rolar dois seis. Assim, o valor-p é 1/36, portanto, seguindo a prática científica quase-Fisher normal, um frequentista rejeitaria a hipótese nula, no nível de significância de 95% .H0H1H0H0

Mas rejeitar a hipótese nula não significa que você tem o direito de aceitar a hipótese alternativa; portanto, a conclusão dos freqüentadores não é justificada pela análise. Testes de hipóteses freqüentistas incorporam a idéia de falsificacionismo (mais ou menos), você não pode provar que algo é verdadeiro, apenas refutar. Portanto, se você deseja afirmar , assume que é verdadeiro e só prossegue se puder mostrar que é inconsistente com os dados. No entanto, isso não significa que seja verdadeiro, apenas que ele sobrevive ao teste e continua como uma hipótese viável, pelo menos até o próximo teste.H1H0H0H1

O bayesiano também é apenas senso comum, observando que não há nada a perder fazendo a aposta. Tenho certeza de que abordagens freqüentistas, quando os custos falso-positivos e falso-negativos são levados em consideração (Neyman-Peason?), Chegariam à mesma conclusão de ser a melhor estratégia em termos de ganho a longo prazo.

Para resumir: Tanto o freqüentador quanto o bayesiano estão sendo desleixados aqui: O freqüentador por seguir cegamente uma receita sem considerar o nível apropriado de significância, os custos falso-positivos / falso-negativos ou a física do problema (por exemplo, não usando seu bom senso) . O bayesiano está sendo desleixado por não declarar explicitamente seus priores, mas, novamente, usando o bom senso, os priores que ele está usando estão obviamente corretos (é muito mais provável que a máquina esteja mentindo do que o sol realmente explodiu), a desleixo talvez seja desculpável.

Dikran Marsupial
fonte
4
Rejeitar a hipótese nula significa simplesmente que a observação seria improvável se H0 fosse verdadeira. Você não deve "aceitar" H1 nesta base, pois está basicamente dizendo que H1 deve ser verdadeiro, porque as observações seriam improváveis ​​se H0 fosse verdadeiro. No entanto, as observações também podem ser improváveis ​​sob H1 (que o ritual nulo ignora) e H1 pode ser menos provável que H0 a-priori (que o ritual nulo também ignora). Aceitar hipóteses é uma inclinação escorregadia para a interpretação de um teste freqüentista como um teste bayesiano, que geralmente resulta em mal-entendidos em casos menos elementares.
Dikran Marsupial
4
Apenas tropeçou em seu comentário. E eu tenho a mesma pergunta que a @glassy tinha. Gostaria de contestar seu comentário de que, se suas hipóteses abrangem todo o espaço de eventos, aqui sendo {"Sun se tornou nova", "Sun não se tornou nova"}, tenho dificuldades para entender seu ponto de vista, como pode rejeitar o " O sol se tornou nova "não leva automaticamente a" o sol não se tornou nova ". Declarar uma declaração falsa implica que sua negação deve ser verdadeira. Seria ótimo se você pudesse fornecer algum texto de referência confiável onde este ponto seja explicado claramente, se possível. Eu estaria interessado em descobrir mais sobre isso.
significa significado
3
Rejeitar a hipótese nula não significa automaticamente que a hipótese nula é provavelmente falsa, apenas que é razoável continuar com a hipótese alternativa. Isso ocorre (em parte) porque o teste de hipóteses freqüentista não leva em consideração as probabilidades anteriores das hipóteses. Mais fundamentalmente, os métodos freqüentistas não podem ser usados ​​para atribuir uma probabilidade à verdade de qualquer hipótese específica; portanto, o vínculo entre "podemos rejeitar a hipótese nula" e "a hipótese nula é provavelmente falsa" é inteiramente subjetivo, na medida em que Eu consigo ver.
Dikran Marsupial
2
Este é o meu ponto de vista, a decisão de aceitarmos H1 é subjetiva e não é uma consequência necessária do resultado do teste "a rejeição de H0 geralmente leva a aceitar H1". O problema é que as informações que você precisa para tomar a decisão [P (H0), P (H1), P (Z | H1)] não aparecem no teste. Essencialmente, algumas dessas informações são parcialmente incluídas na definição do limite, mas geralmente são incompletas e geralmente são deixadas não declaradas e injustificadas. Os priores ainda estão lá em testes freqüentistas, igualmente subjetivos, mas deixados implícitos - o pior dos dois mundos! ; o)
Dikran Marsupial
3
@Dikran, acho que nos entendemos bem e devemos parar de abusar da seção de comentários, mas uma última observação: eu subjetivamente escolho aceitar H1 se subjetivamente rejeitar [ameba-rejeitar] H0 com base em meu subjetivamente escolhido com base em minha avaliação subjetiva subjetiva de P (H1). Dizer que "não sou obrigado a aceitar H1 apenas porque posso rejeitar a ameba H0" não faz nenhum sentido lingüístico. Mas concordo que "não sou obrigado a aceitar o H1 apenas porque posso rejeitar o H0 no nível de 5%". Meu ponto principal: ser capaz de rejeitar H0 no nível de 5% rejeitar . α
Ameba
25

Por que esse resultado parece "errado"? Um bayesiano diria que o resultado parece contra-intuitivo porque temos crenças "anteriores" sobre quando o sol vai explodir, e as evidências fornecidas por esta máquina não são suficientes para eliminar essas crenças (principalmente por causa de sua incerteza devido à lançamento de moeda). Mas um frequentista é capaz de fazer essa avaliação; ele simplesmente deve fazê-lo no contexto dos dados, em oposição à crença.

A verdadeira fonte do paradoxo é o fato de o teste estatístico freqüentista realizado não levar em consideração todos os dados disponíveis. Não há nenhum problema com a análise nos quadrinhos, mas o resultado parece estranho porque sabemos que o sol provavelmente não explodirá por muito tempo. Mas como sabemos disso? Porque fizemos medições, observações e simulações que podem restringir quando o sol vai explodir. Portanto, nosso conhecimento completo deve levar em consideração essas medidas e pontos de dados.

Em uma análise bayesiana, isso é feito usando essas medidas para construir um prior (embora o procedimento para transformar medidas em um prior não seja bem definido: em algum momento deve haver um prior inicial, ou então "tartarugas todas o caminho "). Então, quando o bayesiano usa o seu prior, ele está realmente levando em consideração muitas informações adicionais às quais a análise do valor p do frequentista não está a par.

Portanto, para permanecer em pé de igualdade, uma análise freqüente completa do problema deve incluir os mesmos dados adicionais sobre a explosão do sol que é usada para construir o anterior bayesiano. Mas, em vez de usar priors, um freqüentador simplesmente expandia a probabilidade que ele está usando para incorporar essas outras medidas, e seu valor-p seria calculado usando essa probabilidade total.

L=L (a máquina disse que sim | o sol explodiu) * (todos os outros dados sobre o sol | o sol explodiu)L

Uma análise freqüente completa provavelmente mostraria que a segunda parte da probabilidade será muito mais restritiva e será a contribuição dominante para o cálculo do valor-p (porque temos muitas informações sobre o sol e os erros nessas informações) são pequenos (espero)).

Praticamente, não é preciso sair e coletar todos os pontos de dados obtidos nos últimos 500 anos para fazer um cálculo freqüentista; pode-se aproximar deles como um termo simples de probabilidade que codifica a incerteza sobre a explosão ou não do sol. Isso se tornará semelhante ao prior do Bayesiano, mas é um pouco diferente filosoficamente porque é uma probabilidade, o que significa que codifica alguma medida anterior (em oposição a um prior, que codifica alguma crença a priori). Esse novo termo se tornará parte da probabilidade e será usado para criar intervalos de confiança (ou valores-p ou qualquer outra coisa), em oposição ao anterior bayesiano, que é integrado para formar intervalos ou posteriores credíveis.

GeorgeLewis
fonte
1
Essa deve ser a resposta aceita ou mais votada.
Amelio Vazquez-Reina
11

O maior problema que vejo é que não há estatística de teste derivada. valor (com todas as críticas que os estatísticos bayesianos montam contra ele) para um valor de uma estatística de teste é definido como (supondo que o nulo seja rejeitado por valores maiores de , como seria o caso de estatísticas, digamos). Se você precisar tomar uma decisão de maior importância, poderá aumentar o valor crítico e aumentar ainda mais a região de rejeição. Efetivamente, é isso que várias correções de teste como Bonferroni fazem, instruindo você a usar um limite muito mais baixo parat T P r o b [ T t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...ptTProb[Tt|H0]Tχ2p-valores. Em vez disso, o estatístico freqüentista fica preso aqui com os testes de tamanhos na grade de .0,1/36,2/36,

Evidentemente, essa abordagem "freqüentista" não é científica, pois o resultado dificilmente será reproduzível. Uma vez que a Sun fica supernova, ela permanece supernova, então o detector deve continuar dizendo "Sim" repetidamente. No entanto, é improvável que uma operação repetida desta máquina produza o resultado "Sim" novamente. Isso é reconhecido em áreas que desejam se apresentar como rigorosas e tentar reproduzir seus resultados experimentais ... o que, tanto quanto eu entendo, acontece com probabilidade entre 5% (publicar o artigo original foi um erro puro do tipo I) e algo em torno de 30-40% em alguns campos médicos. O pessoal da meta-análise pode preenchê-lo com números melhores, esse é apenas o burburinho que me ocorre de tempos em tempos através das estatísticas.

Um outro problema da perspectiva freqüentista "adequada" é que rolar um dado é o teste menos poderoso, com poder = nível de significância (se não for menor; 2,7% de potência para o nível de significância de 5% não é nada para se vangloriar). A teoria de Neyman-Pearson para testes t agoniza ao demonstrar que essa é uma UMPT, e muita teoria estatística de alto nível (que eu mal entendo, tenho que admitir) é dedicada a derivar as curvas de poder e encontrar as condições quando um dado teste é o mais poderoso de uma determinada classe. (Créditos: @Dikran Marsupial mencionou a questão do poder em um dos comentários.)

Não sei se isso o incomoda, mas o estatístico bayesiano é mostrado aqui como o cara que não sabe matemática e tem um problema de jogo. Um estatístico bayesiano adequado postularia o anterior, discutira seu grau de objetividade, derivaria o posterior e demonstraria o quanto eles aprenderam com os dados. Nada disso foi feito, de modo que o processo bayesiano foi simplificado demais, tanto quanto o processo freqüentador.

Essa situação demonstra a triagem clássica para a questão do câncer (e tenho certeza de que os bioestatísticos podem descrevê-la melhor do que eu). Ao rastrear uma doença rara com um instrumento imperfeito, a maioria dos positivos passa a ser falso-positivo. Os estatísticos inteligentes sabem disso e sabem melhor para acompanhar peneiradores baratos e sujos com biópsias mais caras e precisas.

StasK
fonte
2
Se entendi seu primeiro parágrafo corretamente, você está dizendo que o limite (0,05 nos quadrinhos) está muito alto. Se o quadrinho tivesse cinco dados em vez de dois, você aceitaria o limite como baixo o suficiente? Como você decide o limite de qualquer maneira?
precisa
9
Eu achava que o estatístico bayesiano simplesmente levava em conta que as chances do sol explodir são muito, muito menores do que as chances da máquina mentir (portanto, não necessariamente um jogador sem noção).
josh
8
Mais ao ponto: se o sol se nova, o vencedor da aposta não vai ser capaz de descontar seus 50 $ ...
Kjetil b Halvorsen
6
Penso que o ponto aqui é que o estatístico freqüentista está seguindo uma receita sem pensar no verdadeiro objetivo da análise. O chamado "bayesiano" não é realmente um bayesiano, apenas alguém que usa seu bom senso. Existem muitos exemplos de receitas cegas a seguir em revistas científicas, e é por isso que o desenho animado é divertido.
Dikran Marsupial
3
A falta de estatística de teste não pode ser o problema, eu não acho. Uma estatística de teste é apenas uma função dos dados. Portanto, a função de identidade, ou seja, aqui o próprio dado, parece funcionar, pelo menos em princípio.
conjugateprior
6

Não há nada de errado com esse quadrinho, e o motivo não tem nada a ver com estatísticas. É economia. Se o freqüentador estiver correto, a Terra será inabitável dentro de 48 horas. O valor de $ 50 será efetivamente nulo. O bayesiano, reconhecendo isso, pode fazer a aposta sabendo que seu benefício é de US $ 50 no caso normal e marginalmente nada no caso de explosão solar.

Tony Boyles
fonte
Isto "tem algo a ver com as estatísticas", já que as estatísticas Bayesian explicitamente modelos isso como "minimização de uma função de perda";)
Fabio Beltramini
5

Agora que o CERN decidiu que os neutrinos não são mais rápidos que a luz - a frente de choque da radiação eletromagnética atingiria a Terra antes que a mudança de neutrinos fosse notada. Isso teria pelo menos (no curto prazo) efeitos aurorais espetaculares. Assim, o fato de estar escuro não impediria que os céus se iluminassem; a lua brilha excessivamente (cf. "Lua Inconstante" de Larry Niven) e flashes espetaculares quando satélites artificiais são vaporizados e queimados automaticamente.

Em suma - talvez o teste errado? (E, embora possa ter havido antes - haveria tempo insuficiente para uma determinação realista do posterior.

SimonN
fonte
1
Mais uma razão para rejeitar a hipótese de que o sol explodiu, então. :-)
ShreevatsaR 13/11
Então é isso que se entende no final do artigo, quando os autores dizem: "estudos confirmatórios são necessários"?
Dwin
Na verdade, revisitando casualmente essa clara inferência está no título. A máquina detecta se o sol se tornou nova. Não há chance de erro na detecção. O bit de neutrino é irrelevante. Dado isso, as estatísticas são tais que a máquina responderá "não", "não", "não" ... com 1/36 de chance de ser uma afirmação falsa (sim) até um evento pontual que encerre a estatística processo ocorre - isso também terá uma chance de 1/36 de ser falsamente relatado (não), se a máquina for consultada durante o intervalo de 8 minutos ímpares necessário para se tornar evidente na Terra.
precisa
4

Concordo com @GeorgeLewis que pode ser prematuro concluir que a abordagem Frequentist está errada - vamos executar novamente o detector de neutrinos várias vezes para coletar mais dados. Não há necessidade de mexer com os anteriores.

RobertF
fonte
2

Um ponto mais simples que pode ser perdido entre todas as respostas detalhadas aqui é que o frequentista é retratado tirando sua conclusão com base em uma única amostra. Na prática, você nunca faria isso.

Para chegar a uma conclusão válida, é necessário um tamanho de amostra estatisticamente significativo (ou, em outras palavras, a ciência precisa ser repetida). Portanto, na prática, o freqüentador executaria a máquina várias vezes e chegaria a uma conclusão sobre os dados resultantes.

Presumivelmente, isso exigiria perguntar à máquina a mesma pergunta várias vezes. E, presumivelmente, se a máquina estiver errada apenas 1 em cada 36 vezes, um padrão claro surgirá. E a partir desse padrão (e não de uma única leitura) o frequentista tirará uma conclusão (bastante precisa, eu diria) sobre se o sol explodiu ou não.

aroth
fonte
4
O que você quer dizer com "tamanho de amostra estatisticamente significativo"?
Momo
@Momo - Mais do que uma única amostra, com certeza. Não é válido observar um resultado improvável e depois tirar conclusões de que o improvável aconteceu sem primeiro repetir a observação para garantir que não foi por acaso. Se você deseja um número exato que represente um tamanho de amostra estatisticamente significativo ou um algoritmo para determinar um número exato, provavelmente um estatístico pode fornecer um; mas eu não sou estatístico.
Aroth
3
Eu não acho que exista um problema específico em ter um tamanho de amostra igual a 1, o problema é que o teste não tem poder estatístico (ou seja, o teste nunca rejeitará a hipótese nula quando for falsa). No entanto, isso revela um problema com o "ritual nulo" sendo exposto no artigo, o que ignora a questão do poder estatístico (e o que H1 realmente é, ou informações anteriores relevantes para o problema).
Dikran Marsupial
1
@Dikran Essa é uma das melhores respostas possíveis! O problema com o "freqüentista" no desenho animado é que um ritual estatístico específico foi seguido sem antes realizar a avaliação necessária das propriedades do teste. (Pode-se até estender sua análise, considerando o que deve ser uma função de perda relevante para essa decisão.) Assim, o desenho animado espeta perfeitamente todas as pessoas que empregam procedimentos estatísticos sem entendê-los ou verificar suas suposições.
whuber
2

A resposta para sua pergunta: "ele aplica corretamente a metodologia freqüentista?" não, ele não aplica exatamente a abordagem freqüentista. O valor p para esse problema não é exatamente 1/36.

Primeiro, devemos observar que as hipóteses envolvidas são

H0: O Sol não explodiu,

H1: O Sol explodiu.

Então,

Valor p = P ("a máquina retorna sim" | o Sol não explodiu).

Para calcular essa probabilidade, devemos observar que "a máquina retorna sim" é equivalente a "o detector de neutrinos mede a explosão do Sol E diz o resultado verdadeiro OU o detector de neutrinos não mede a explosão do Sol E mente para nós".

Supondo que o lançamento de dados seja independente da medição do detector de neutrinos, podemos calcular o valor de p definindo:

p0 = P ("o detector de neutrinos mede a explosão do Sol" | o Sol não explodiu),

Então, o valor p é

Valor de p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

Para esse problema, o valor p é um número entre 1/36 e 35/36. O valor p é igual a 1/36 se e somente se p0 = 0. Ou seja, uma suposição oculta neste desenho animado é que a máquina detectora nunca medirá a explosão do Sol se o Sol não explodir.

Além disso, muito mais informações devem ser inseridas na probabilidade de evidências externas de uma explosão de anova acontecendo.

Muito bem sucedida.

Alexandre Patriota
fonte
1

Não vejo nenhum problema com a abordagem do frequentista. Se a hipótese nula for rejeitada, o valor p é a probabilidade de um erro do tipo 1. Um erro do tipo 1 está rejeitando uma hipótese nula verdadeira. Nesse caso, temos um valor-p de 0,028. Isso significa que, entre todos os testes de hipóteses com esse valor-p já realizado, cerca de 3 em cem rejeitarão uma hipótese nula verdadeira. Por construção, esse seria um desses casos. Os freqüentistas aceitam que, às vezes, rejeitam a hipótese nula verdadeira ou retêm a hipótese nula falsa (erros do tipo 2), nunca afirmaram o contrário. Além disso, eles quantificam com precisão a frequência de suas inferências errôneas a longo prazo.

Talvez, uma maneira menos confusa de olhar para esse resultado seja trocar os papéis das hipóteses. Como as duas hipóteses são simples, é fácil fazer isso. Se o nulo é que o sol virou nova, o valor de p é 35/36 = 0,972. Isso significa que não há evidência contra a hipótese de que o sol se tornou nova, portanto não podemos rejeitá-lo com base nesse resultado. Isso parece mais razoável. Se você está pensando. Por que alguém assumiria que o sol se tornou nova? Eu perguntaria a você. Por que alguém realizaria tal experimento se o próprio pensamento do sol explodir parece ridículo?

Eu acho que isso apenas mostra que é preciso avaliar a utilidade de um experimento de antemão. Esse experimento, por exemplo, seria completamente inútil, porque testa algo que já sabemos simplesmente olhando para o céu (que, com certeza, produz um valor-p que é efetivamente zero). Projetar um bom experimento é um requisito para produzir boa ciência. Se seu experimento for mal projetado, não importa qual ferramenta de inferência estatística você use, é improvável que seus resultados sejam úteis.

Jose Garmilla
fonte
Certamente, mas o bayesiano ainda pode inferir uma conclusão razoável com os dados dados / resultados da experiência . Às vezes, você não pode repetir um experimento ou projetá-lo da maneira que desejar.
Amelio Vazquez-Reina
Esse é um ponto justo: a inferência bayesiana pode incorporar facilmente a experiência anterior que dificulta que resultados extraordinários tenham peso estatístico (ela nos protege contra ataques de estatística). No entanto, este também é um experimento inútil na estrutura bayesiana. O anterior é tão fortemente a favor de uma conclusão que nenhum resultado neste experimento pode alterá-lo. Se o prior é tão forte. Por que realizar um experimento sem chance de modificá-lo? Ao considerar os priores fracos (que provavelmente serão alterados pelos dados), acho que os métodos bayesiano e frequentista geralmente produzem resultados "comparáveis".
Jose Garmilla
0

Como integrar o "conhecimento prévio" sobre a estabilidade do sol na metodologia freqüentista?

Tópico muito interessante.

Aqui estão apenas alguns pensamentos, não uma análise perfeita ...

O uso da abordagem bayesiana com um prévio não informativo geralmente fornece uma inferência estatística comparável à freqüentista.

Por que o bayesiano tem uma forte crença anterior de que o sol não explodiu? Porque ele sabe como todos que o sol nunca explodiu desde o início.

Podemos ver em alguns modelos estatísticos simples com anteriores conjugados que o uso de uma distribuição anterior é equivalente ao uso da distribuição posterior derivada de experimentos prévios e preliminares não-informativos.

A frase acima sugere que o freqüentista deveria concluir como bayesiano incluindo os resultados de experimentos preliminares em seu modelo. E é isso que o bayesiano realmente faz : o seu prior vem do seu conhecimento das experiências preliminares!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}θ θ x 1 , , x N y 1 N y = { Sim } θ θPr(xN+1=0)θθx1,,xNy1Ny={Yes}θ. E o bayesiano pretende refletir essas informações através de sua distribuição anterior sobre .θ

Nesta perspectiva, não vejo como reformular a questão em termos de teste de hipóteses. Tomando não faz sentido porque é uma questão possível do experimento em minha interpretação, não uma hipótese verdadeira / falsa. Talvez este seja o erro do Frequentist?H0={the sun has not exploded}

Stéphane Laurent
fonte
A passagem "... ele sabe como todos que o sol nunca explodiu desde o início" traz à mente uma história sobre um feriado americano recente em que milhões de perus ( Meleagris gallopavo ) são consumidos. À medida que o tempo passa, todos os dias qualquer peru inteligente "sabe como todos" que será alimentada e cuidada, até o dia fatídico (e totalmente inesperado para ela) no meio de novembro! Da mesma forma, nossa confiança na estabilidade do sol deveria ser baixa se tudo o que tivéssemos que confiar fosse a história relativamente curta da observação humana.
whuber
@whuber Eu preferiria enviar-lhe esta mensagem em particular. Existe uma conexão entre o seu comentário e o tópico da discussão? Não sei se sou eu quem me faz idéias, mas várias vezes sinto que você comenta minhas respostas principalmente para dizer algo contra minhas respostas. O exercício proposto pelo OP é a interpretação de um desenho animado, e sinto que você critica minha resposta como se eu estivesse falando sobre um problema real. Recentemente, não gostei e ainda não entendi por que você evocou uma provável "intenção" por trás das minhas respostas.
Stéphane Laurent
Não houve críticas, implícitas ou intencionais: às vezes um comentário é realmente apenas ... um comentário. Tentou destacar (de certo modo, humorístico) questões importantes sugeridas, mas não abordadas, em sua resposta. Lamento que você perceba isso como pessoal ou como um ataque. Aliás, essa é uma pergunta real: pergunta Como integrar o "conhecimento prévio" ... na metodologia freqüentista? Essa questão evoca as críticas de Hume à inferência indutiva e aborda questões da filosofia da ciência e também dos próprios fundamentos da estatística. Vale a pena pensar cuidadosamente!
whuber
Também vale a pena ressaltar que uma proporção substancial de sua reputação se deve aos meus votos em suas respostas - que eu ofereço como evidência material de que não há nenhum comportamento sistemático da minha parte contra você.
whuber
2
Não, entendi seu comentário. A tradução francesa do seu comentário no Google já é estranha, mas, combinando minhas habilidades em inglês e as estranhas traduções do Google, posso obter uma tradução correta. Eu estarei mais relaxado no próximo mês, provavelmente.
Stéphane Laurent
0

É claro que esse é um teste de nível freqüente de 0,05 - a hipótese nula é rejeitada em menos de 5% do tempo sob a hipótese nula e até mesmo o poder sob a alternativa é grande.

Por outro lado, informações anteriores nos dizem que o sol se transformando em supernova em um determinado momento no tempo é bastante improvável, mas que mentir por acaso é mais provável.

Conclusão: não há realmente nada de errado com os quadrinhos e mostra que testar hipóteses implausíveis leva a uma alta taxa de descoberta falsa. Além disso, você provavelmente deseja levar em conta as informações anteriores na sua avaliação das apostas oferecidas - é por isso que um posterior Bayesiano em combinação com a análise de decisão é tão popular.

Björn
fonte
-2

Na minha opinião, uma análise freqüentista mais correta seria a seguinte: H0: O sol explodiu e a máquina está dizendo a verdade. H1: O sol não explodiu e a máquina está mentindo.

O valor de p aqui é = P (sol explodiu). p (a máquina está dizendo a verdade) = 0,97. P (sol explodiu)

O estatístico não pode concluir nada sem conhecer a natureza da segunda probabilidade.

Embora saibamos que P (sol explodiu) é 0, porque estrelas semelhantes ao sol não explodem em supernovas.

Chaitanya Anand
fonte