Este quadrinho do xkcd (Frequentists vs. Bayesians) zomba de um estatístico freqüentista que obtém um resultado obviamente errado.
No entanto, parece-me que seu raciocínio está realmente correto no sentido em que segue a metodologia freqüentista padrão.
Então, minha pergunta é "ele aplica corretamente a metodologia freqüentista?"
- Se não: qual seria uma inferência freqüente correta nesse cenário? Como integrar o "conhecimento prévio" sobre a estabilidade do sol na metodologia freqüentista?
- Se sim: wtf? ;-)
bayesian
frequentist
repied2
fonte
fonte
Respostas:
A questão principal é que o primeiro experimento (Sun gone nova) não é repetível, o que o torna altamente inadequado para a metodologia frequentista que interpreta a probabilidade como estimativa da frequência com que um evento está ocorrendo e que podemos repetir o experimento várias vezes. Por outro lado, a probabilidade bayesiana é interpretada como nosso grau de crença, fornecendo todo o conhecimento prévio disponível, tornando-o adequado para o raciocínio de bom senso sobre eventos únicos. O experimento de arremesso de dados é repetível, mas acho muito improvável que qualquer freqüentador intencionalmente ignore a influência do primeiro experimento e tenha tanta confiança na significância dos resultados obtidos.
Embora pareça que o autor zomba da confiança freqüentista em experimentos repetíveis e de sua desconfiança em relação aos anteriores, dando a inadequação da configuração experimental à metodologia freqüentista, eu diria que o tema real desse quadrinho não é a metodologia frequistista, mas o seguimento cego da metodologia inadequada em geral. Seja engraçado ou não, é com você (para mim é), mas acho que é mais enganoso do que esclarece as diferenças entre as duas abordagens.
fonte
Tanto quanto eu posso ver, o pouco freqüentador é razoável até aqui:
Seja a hipótese de que o sol não explodiu e seja a hipótese que possui. O valor p é, portanto, a probabilidade de observar o resultado (a máquina dizendo "sim") em . Supondo que a máquina detecte corretamente a presença de ausência de neutrinos, se a máquina disser "sim" em , é porque a máquina está mentindo para nós como resultado de rolar dois seis. Assim, o valor-p é 1/36, portanto, seguindo a prática científica quase-Fisher normal, um frequentista rejeitaria a hipótese nula, no nível de significância de 95% .H0 H1 H0 H0
Mas rejeitar a hipótese nula não significa que você tem o direito de aceitar a hipótese alternativa; portanto, a conclusão dos freqüentadores não é justificada pela análise. Testes de hipóteses freqüentistas incorporam a idéia de falsificacionismo (mais ou menos), você não pode provar que algo é verdadeiro, apenas refutar. Portanto, se você deseja afirmar , assume que é verdadeiro e só prossegue se puder mostrar que é inconsistente com os dados. No entanto, isso não significa que seja verdadeiro, apenas que ele sobrevive ao teste e continua como uma hipótese viável, pelo menos até o próximo teste.H1 H0 H0 H1
O bayesiano também é apenas senso comum, observando que não há nada a perder fazendo a aposta. Tenho certeza de que abordagens freqüentistas, quando os custos falso-positivos e falso-negativos são levados em consideração (Neyman-Peason?), Chegariam à mesma conclusão de ser a melhor estratégia em termos de ganho a longo prazo.
Para resumir: Tanto o freqüentador quanto o bayesiano estão sendo desleixados aqui: O freqüentador por seguir cegamente uma receita sem considerar o nível apropriado de significância, os custos falso-positivos / falso-negativos ou a física do problema (por exemplo, não usando seu bom senso) . O bayesiano está sendo desleixado por não declarar explicitamente seus priores, mas, novamente, usando o bom senso, os priores que ele está usando estão obviamente corretos (é muito mais provável que a máquina esteja mentindo do que o sol realmente explodiu), a desleixo talvez seja desculpável.
fonte
Por que esse resultado parece "errado"? Um bayesiano diria que o resultado parece contra-intuitivo porque temos crenças "anteriores" sobre quando o sol vai explodir, e as evidências fornecidas por esta máquina não são suficientes para eliminar essas crenças (principalmente por causa de sua incerteza devido à lançamento de moeda). Mas um frequentista é capaz de fazer essa avaliação; ele simplesmente deve fazê-lo no contexto dos dados, em oposição à crença.
A verdadeira fonte do paradoxo é o fato de o teste estatístico freqüentista realizado não levar em consideração todos os dados disponíveis. Não há nenhum problema com a análise nos quadrinhos, mas o resultado parece estranho porque sabemos que o sol provavelmente não explodirá por muito tempo. Mas como sabemos disso? Porque fizemos medições, observações e simulações que podem restringir quando o sol vai explodir. Portanto, nosso conhecimento completo deve levar em consideração essas medidas e pontos de dados.
Em uma análise bayesiana, isso é feito usando essas medidas para construir um prior (embora o procedimento para transformar medidas em um prior não seja bem definido: em algum momento deve haver um prior inicial, ou então "tartarugas todas o caminho "). Então, quando o bayesiano usa o seu prior, ele está realmente levando em consideração muitas informações adicionais às quais a análise do valor p do frequentista não está a par.
Portanto, para permanecer em pé de igualdade, uma análise freqüente completa do problema deve incluir os mesmos dados adicionais sobre a explosão do sol que é usada para construir o anterior bayesiano. Mas, em vez de usar priors, um freqüentador simplesmente expandia a probabilidade que ele está usando para incorporar essas outras medidas, e seu valor-p seria calculado usando essa probabilidade total.
Uma análise freqüente completa provavelmente mostraria que a segunda parte da probabilidade será muito mais restritiva e será a contribuição dominante para o cálculo do valor-p (porque temos muitas informações sobre o sol e os erros nessas informações) são pequenos (espero)).
Praticamente, não é preciso sair e coletar todos os pontos de dados obtidos nos últimos 500 anos para fazer um cálculo freqüentista; pode-se aproximar deles como um termo simples de probabilidade que codifica a incerteza sobre a explosão ou não do sol. Isso se tornará semelhante ao prior do Bayesiano, mas é um pouco diferente filosoficamente porque é uma probabilidade, o que significa que codifica alguma medida anterior (em oposição a um prior, que codifica alguma crença a priori). Esse novo termo se tornará parte da probabilidade e será usado para criar intervalos de confiança (ou valores-p ou qualquer outra coisa), em oposição ao anterior bayesiano, que é integrado para formar intervalos ou posteriores credíveis.
fonte
O maior problema que vejo é que não há estatística de teste derivada. valor (com todas as críticas que os estatísticos bayesianos montam contra ele) para um valor de uma estatística de teste é definido como (supondo que o nulo seja rejeitado por valores maiores de , como seria o caso de estatísticas, digamos). Se você precisar tomar uma decisão de maior importância, poderá aumentar o valor crítico e aumentar ainda mais a região de rejeição. Efetivamente, é isso que várias correções de teste como Bonferroni fazem, instruindo você a usar um limite muito mais baixo parat T P r o b [ T ≥ t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...p t T Prob[T≥t|H0] T χ2 p -valores. Em vez disso, o estatístico freqüentista fica preso aqui com os testes de tamanhos na grade de .0,1/36,2/36,…
Evidentemente, essa abordagem "freqüentista" não é científica, pois o resultado dificilmente será reproduzível. Uma vez que a Sun fica supernova, ela permanece supernova, então o detector deve continuar dizendo "Sim" repetidamente. No entanto, é improvável que uma operação repetida desta máquina produza o resultado "Sim" novamente. Isso é reconhecido em áreas que desejam se apresentar como rigorosas e tentar reproduzir seus resultados experimentais ... o que, tanto quanto eu entendo, acontece com probabilidade entre 5% (publicar o artigo original foi um erro puro do tipo I) e algo em torno de 30-40% em alguns campos médicos. O pessoal da meta-análise pode preenchê-lo com números melhores, esse é apenas o burburinho que me ocorre de tempos em tempos através das estatísticas.
Um outro problema da perspectiva freqüentista "adequada" é que rolar um dado é o teste menos poderoso, com poder = nível de significância (se não for menor; 2,7% de potência para o nível de significância de 5% não é nada para se vangloriar). A teoria de Neyman-Pearson para testes t agoniza ao demonstrar que essa é uma UMPT, e muita teoria estatística de alto nível (que eu mal entendo, tenho que admitir) é dedicada a derivar as curvas de poder e encontrar as condições quando um dado teste é o mais poderoso de uma determinada classe. (Créditos: @Dikran Marsupial mencionou a questão do poder em um dos comentários.)
Não sei se isso o incomoda, mas o estatístico bayesiano é mostrado aqui como o cara que não sabe matemática e tem um problema de jogo. Um estatístico bayesiano adequado postularia o anterior, discutira seu grau de objetividade, derivaria o posterior e demonstraria o quanto eles aprenderam com os dados. Nada disso foi feito, de modo que o processo bayesiano foi simplificado demais, tanto quanto o processo freqüentador.
Essa situação demonstra a triagem clássica para a questão do câncer (e tenho certeza de que os bioestatísticos podem descrevê-la melhor do que eu). Ao rastrear uma doença rara com um instrumento imperfeito, a maioria dos positivos passa a ser falso-positivo. Os estatísticos inteligentes sabem disso e sabem melhor para acompanhar peneiradores baratos e sujos com biópsias mais caras e precisas.
fonte
Não há nada de errado com esse quadrinho, e o motivo não tem nada a ver com estatísticas. É economia. Se o freqüentador estiver correto, a Terra será inabitável dentro de 48 horas. O valor de $ 50 será efetivamente nulo. O bayesiano, reconhecendo isso, pode fazer a aposta sabendo que seu benefício é de US $ 50 no caso normal e marginalmente nada no caso de explosão solar.
fonte
Agora que o CERN decidiu que os neutrinos não são mais rápidos que a luz - a frente de choque da radiação eletromagnética atingiria a Terra antes que a mudança de neutrinos fosse notada. Isso teria pelo menos (no curto prazo) efeitos aurorais espetaculares. Assim, o fato de estar escuro não impediria que os céus se iluminassem; a lua brilha excessivamente (cf. "Lua Inconstante" de Larry Niven) e flashes espetaculares quando satélites artificiais são vaporizados e queimados automaticamente.
Em suma - talvez o teste errado? (E, embora possa ter havido antes - haveria tempo insuficiente para uma determinação realista do posterior.
fonte
Concordo com @GeorgeLewis que pode ser prematuro concluir que a abordagem Frequentist está errada - vamos executar novamente o detector de neutrinos várias vezes para coletar mais dados. Não há necessidade de mexer com os anteriores.
fonte
Um ponto mais simples que pode ser perdido entre todas as respostas detalhadas aqui é que o frequentista é retratado tirando sua conclusão com base em uma única amostra. Na prática, você nunca faria isso.
Para chegar a uma conclusão válida, é necessário um tamanho de amostra estatisticamente significativo (ou, em outras palavras, a ciência precisa ser repetida). Portanto, na prática, o freqüentador executaria a máquina várias vezes e chegaria a uma conclusão sobre os dados resultantes.
Presumivelmente, isso exigiria perguntar à máquina a mesma pergunta várias vezes. E, presumivelmente, se a máquina estiver errada apenas 1 em cada 36 vezes, um padrão claro surgirá. E a partir desse padrão (e não de uma única leitura) o frequentista tirará uma conclusão (bastante precisa, eu diria) sobre se o sol explodiu ou não.
fonte
A resposta para sua pergunta: "ele aplica corretamente a metodologia freqüentista?" não, ele não aplica exatamente a abordagem freqüentista. O valor p para esse problema não é exatamente 1/36.
Primeiro, devemos observar que as hipóteses envolvidas são
H0: O Sol não explodiu,
H1: O Sol explodiu.
Então,
Valor p = P ("a máquina retorna sim" | o Sol não explodiu).
Para calcular essa probabilidade, devemos observar que "a máquina retorna sim" é equivalente a "o detector de neutrinos mede a explosão do Sol E diz o resultado verdadeiro OU o detector de neutrinos não mede a explosão do Sol E mente para nós".
Supondo que o lançamento de dados seja independente da medição do detector de neutrinos, podemos calcular o valor de p definindo:
p0 = P ("o detector de neutrinos mede a explosão do Sol" | o Sol não explodiu),
Então, o valor p é
Valor de p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).
Para esse problema, o valor p é um número entre 1/36 e 35/36. O valor p é igual a 1/36 se e somente se p0 = 0. Ou seja, uma suposição oculta neste desenho animado é que a máquina detectora nunca medirá a explosão do Sol se o Sol não explodir.
Além disso, muito mais informações devem ser inseridas na probabilidade de evidências externas de uma explosão de anova acontecendo.
Muito bem sucedida.
fonte
Não vejo nenhum problema com a abordagem do frequentista. Se a hipótese nula for rejeitada, o valor p é a probabilidade de um erro do tipo 1. Um erro do tipo 1 está rejeitando uma hipótese nula verdadeira. Nesse caso, temos um valor-p de 0,028. Isso significa que, entre todos os testes de hipóteses com esse valor-p já realizado, cerca de 3 em cem rejeitarão uma hipótese nula verdadeira. Por construção, esse seria um desses casos. Os freqüentistas aceitam que, às vezes, rejeitam a hipótese nula verdadeira ou retêm a hipótese nula falsa (erros do tipo 2), nunca afirmaram o contrário. Além disso, eles quantificam com precisão a frequência de suas inferências errôneas a longo prazo.
Talvez, uma maneira menos confusa de olhar para esse resultado seja trocar os papéis das hipóteses. Como as duas hipóteses são simples, é fácil fazer isso. Se o nulo é que o sol virou nova, o valor de p é 35/36 = 0,972. Isso significa que não há evidência contra a hipótese de que o sol se tornou nova, portanto não podemos rejeitá-lo com base nesse resultado. Isso parece mais razoável. Se você está pensando. Por que alguém assumiria que o sol se tornou nova? Eu perguntaria a você. Por que alguém realizaria tal experimento se o próprio pensamento do sol explodir parece ridículo?
Eu acho que isso apenas mostra que é preciso avaliar a utilidade de um experimento de antemão. Esse experimento, por exemplo, seria completamente inútil, porque testa algo que já sabemos simplesmente olhando para o céu (que, com certeza, produz um valor-p que é efetivamente zero). Projetar um bom experimento é um requisito para produzir boa ciência. Se seu experimento for mal projetado, não importa qual ferramenta de inferência estatística você use, é improvável que seus resultados sejam úteis.
fonte
Tópico muito interessante.
Aqui estão apenas alguns pensamentos, não uma análise perfeita ...
O uso da abordagem bayesiana com um prévio não informativo geralmente fornece uma inferência estatística comparável à freqüentista.
Por que o bayesiano tem uma forte crença anterior de que o sol não explodiu? Porque ele sabe como todos que o sol nunca explodiu desde o início.
Podemos ver em alguns modelos estatísticos simples com anteriores conjugados que o uso de uma distribuição anterior é equivalente ao uso da distribuição posterior derivada de experimentos prévios e preliminares não-informativos.
A frase acima sugere que o freqüentista deveria concluir como bayesiano incluindo os resultados de experimentos preliminares em seu modelo. E é isso que o bayesiano realmente faz : o seu prior vem do seu conhecimento das experiências preliminares!
Nesta perspectiva, não vejo como reformular a questão em termos de teste de hipóteses. Tomando não faz sentido porque é uma questão possível do experimento em minha interpretação, não uma hipótese verdadeira / falsa. Talvez este seja o erro do Frequentist?H0={the sun has not exploded}
fonte
É claro que esse é um teste de nível freqüente de 0,05 - a hipótese nula é rejeitada em menos de 5% do tempo sob a hipótese nula e até mesmo o poder sob a alternativa é grande.
Por outro lado, informações anteriores nos dizem que o sol se transformando em supernova em um determinado momento no tempo é bastante improvável, mas que mentir por acaso é mais provável.
Conclusão: não há realmente nada de errado com os quadrinhos e mostra que testar hipóteses implausíveis leva a uma alta taxa de descoberta falsa. Além disso, você provavelmente deseja levar em conta as informações anteriores na sua avaliação das apostas oferecidas - é por isso que um posterior Bayesiano em combinação com a análise de decisão é tão popular.
fonte
Na minha opinião, uma análise freqüentista mais correta seria a seguinte: H0: O sol explodiu e a máquina está dizendo a verdade. H1: O sol não explodiu e a máquina está mentindo.
O valor de p aqui é = P (sol explodiu). p (a máquina está dizendo a verdade) = 0,97. P (sol explodiu)
O estatístico não pode concluir nada sem conhecer a natureza da segunda probabilidade.
Embora saibamos que P (sol explodiu) é 0, porque estrelas semelhantes ao sol não explodem em supernovas.
fonte