Uma pergunta recente sobre a diferença entre confiança e intervalos confiáveis levou-me a reler o artigo de Edwin Jaynes sobre esse tópico:
Jaynes, ET. 175; ( pdf )
No resumo, Jaynes escreve:
... exibimos as soluções bayesianas e ortodoxas para seis problemas estatísticos comuns que envolvem intervalos de confiança (incluindo testes de significância baseados no mesmo raciocínio). Em todos os casos, achamos que a situação é exatamente o oposto, ou seja, o método bayesiano é mais fácil de aplicar e produz os mesmos ou melhores resultados. De fato, os resultados ortodoxos são satisfatórios apenas quando concordam estreitamente (ou exatamente) com os resultados bayesianos. Nenhum exemplo contrário ainda foi produzido.
(ênfase minha)
O artigo foi publicado em 1976, então talvez as coisas tenham mudado. Minha pergunta é: existem exemplos em que o intervalo de confiança freqüentista é claramente superior ao intervalo credível bayesiano (conforme o desafio implicitamente feito por Jaynes)?
Exemplos baseados em suposições anteriores incorretas não são aceitáveis, pois não dizem nada sobre a consistência interna das diferentes abordagens.
fonte
Respostas:
Eu disse anteriormente que responderia à pergunta, então aqui vai ...
Jaynes estava sendo um pouco desobediente em seu artigo, pois um intervalo de confiança freqüentista não é definido como um intervalo em que podemos esperar que o verdadeiro valor da estatística esteja com alta probabilidade (especificada), portanto, não é de surpreender excessivamente que as contradições surgem se eles são interpretados como se fossem. O problema é que geralmente é assim que os intervalos de confiança são usados na prática, já que um intervalo com grande probabilidade de conter o valor verdadeiro (dado o que podemos deduzir de nossa amostra de dados) é o que geralmente queremos.
A questão principal para mim é que, quando uma pergunta é feita, é melhor ter uma resposta direta a essa pergunta. Se intervalos credíveis bayesianos são piores que intervalos freqüentes de confiança, depende de qual pergunta foi realmente feita. Se a pergunta feita foi:
(a) "Dê-me um intervalo em que o verdadeiro valor da estatística esteja com a probabilidade p", então parece que um frequentista não pode realmente responder a essa pergunta diretamente (e isso introduz o tipo de problemas que Jaynes discute em seu artigo), mas um Lata bayesiana, razão pela qual um intervalo credível bayesiano é superior ao intervalo de confiança freqüentista nos exemplos dados por Jaynes. Mas isso é apenas porque é a "pergunta errada" para o frequentista.
(b) "Dê-me um intervalo em que, se o experimento se repetisse várias vezes, o valor real da estatística estaria dentro de p * 100% desses intervalos", então a resposta freqüentista é exatamente o que você deseja. O bayesiano também pode ser capaz de dar uma resposta direta a essa pergunta (embora possa não ser simplesmente o intervalo credível óbvio). O comentário de Whuber sobre a questão sugere que esse é o caso.
Então, essencialmente, é uma questão de especificar corretamente a pergunta e interpretar adequadamente a resposta. Se você quiser fazer a pergunta (a), use um intervalo de credibilidade bayesiano; se quiser fazer a pergunta (b), use um intervalo de confiança freqüentista.
fonte
Este é um exemplo "detalhado" dado em um livro escrito por Larry Wasserman Todas as estatísticas da Página 216 ( 12.8 Pontos fortes e fracos da inferência bayesiana ). Basicamente, forneço o que Wasserman não fornece em seu livro 1) uma explicação para o que realmente está acontecendo, em vez de uma linha descartável; 2) a resposta freqüentista à pergunta, que Wasserman convenientemente não dá; e 3) uma demonstração de que a confiança equivalente calculada usando as mesmas informações sofre do mesmo problema.
Neste exemplo, ele afirma a seguinte situação
... O que devemos concluir disso tudo? O importante é entender que os métodos frequentistas e bayesianos estão respondendo a perguntas diferentes. Para combinar crenças anteriores com dados de uma maneira baseada em princípios, use a inferência bayesiana. Para construir procedimentos com desempenho garantido a longo prazo, como intervalos de confiança, use métodos freqüentes ... (p217)
E então segue em frente sem nenhuma disecção ou explicação de por que o método bayesiano teve um desempenho aparentemente tão ruim. Além disso, ele não dá uma resposta da abordagem freqüentista, apenas uma ampla declaração sobre "o longo prazo" - uma tática política clássica (enfatize sua força + fraqueza dos outros, mas nunca compare comparações).
fonte
Keith Winstein,
EDIT: Apenas para esclarecer, esta resposta descreve o exemplo dado em Keith Winstein Answer on the King com o cruel jogo estatístico. As respostas bayesiana e frequentista usam a mesma informação, que é ignorar a informação sobre o número de moedas justas e injustas ao construir os intervalos. Se essas informações não forem ignoradas, o freqüentador deve usar a Probabilidade Beta-Binomial integrada como distribuição de amostragem na construção do intervalo de Confiança; nesse caso, o Intervalo de Confiança Clopper-Pearson não é apropriado e precisa ser modificado. Um ajuste semelhante deve ocorrer na solução bayesiana.
EDIT: Eu também esclareço o uso inicial do Clopper Pearson Interval.
EDIT: infelizmente, meu alfa é o caminho errado, e meu intervalo clopper pearson está incorreto. Minhas desculpas mais humildes a @whuber, que apontou isso corretamente, mas com quem eu inicialmente discordei e ignorei.
O IC Usando o método Clopper Pearson é muito bom
Assim, quem usa o intervalo de confiança Clopper Pearson nunca será decapitado. Ao observar o intervalo, é basicamente todo o espaço do parâmetro. Mas o intervalo de CP está fazendo isso, oferecendo 100% de cobertura a um intervalo supostamente de 95%! Basicamente, os Frequentistas "trapaceiam", dando um intervalo de confiança de 95% a mais do que lhe foi solicitado (embora quem não trapaceie em tal situação? Se fosse eu, eu daria o todo [0, 1] intervalo). Se o rei pedisse um IC exato de 95%, esse método freqüentador falharia independentemente do que realmente aconteceu (talvez exista um melhor?).
E o intervalo bayesiano? (especificamente o intervalo bayesiano de Desnidade Posterior Mais Alta (HPD))
Para citar um intervalo de confiança genuíno de 95%, então, por definição , deve haver alguns casos (isto é, pelo menos um) do intervalo observado que não contêm o valor verdadeiro do parâmetro . Caso contrário, como justificar a marca de 95%? Não seria apenas válido ou inválido chamá-lo de intervalo de 90%, 50%, 20% ou mesmo 0%?
Não vejo como simplesmente afirmar "realmente significa 95% ou mais" sem uma restrição complementar é satisfatório. Isso ocorre porque a solução matemática óbvia é todo o espaço de parâmetros e o problema é trivial. suponha que eu queira um IC de 50%? se limitar apenas os falsos negativos, todo o espaço do parâmetro será um IC válido usando apenas esse critério.
Para finalizar, parece um pouco estranho solicitar um intervalo de incerteza e depois avaliar esse intervalo usando o valor verdadeiro sobre o qual não tínhamos certeza. Uma comparação "mais justa", para intervalos de confiança e credibilidade, para mim parece a verdade da declaração de incerteza dada com o intervalo .
fonte
O problema começa com a sua frase:
Sim, bem, como você sabe que seu prior está correto?
Tomemos o caso da inferência bayesiana na filogenia. A probabilidade de pelo menos uma alteração está relacionada ao tempo evolutivo (comprimento do ramo t) pela fórmula
sendo você a taxa de substituição.
Agora você quer fazer um modelo da evolução, com base na comparação de sequências de DNA. Em essência, você tenta estimar uma árvore na qual tenta modelar a quantidade de alteração entre as seqüências de DNA o mais próximo possível. OP acima é a chance de pelo menos uma alteração em um determinado ramo. Modelos evolutivos descrevem as chances de mudança entre dois nucleotídeos e, a partir desses modelos evolutivos, a função de estimativa é derivada, com p como parâmetro ou t como parâmetro.
Você não tem conhecimento sensato e escolheu um apartamento anterior para p. Isso implica inerentemente uma diminuição exponencial anterior para t. (Torna-se ainda mais problemático se você deseja definir um plano anterior a t. O anterior implícito em p depende fortemente de onde você cortou o intervalo de t.)
Em teoria, t pode ser infinito, mas quando você permite um intervalo infinito, a área sob sua função de densidade também é igual ao infinito; portanto, é necessário definir um ponto de truncamento para o anterior. Agora, quando você escolhe o ponto de truncamento suficientemente grande, não é difícil provar que as duas extremidades do intervalo credível aumentam e, em um determinado momento, o valor verdadeiro não está mais contido no intervalo credível. A menos que você tenha uma idéia muito boa sobre o anterior, não é garantido que os métodos bayesianos sejam iguais ou superiores a outros métodos.
ref: Joseph Felsenstein: Inferindo Filogenias, capítulo 18
Em uma nota lateral, eu estou ficando cansado dessa discussão bayesiana / freqüentista. Ambos são estruturas diferentes, e a Verdade Absoluta também não. Os exemplos clássicos dos métodos bayesianos vêm invariantemente do cálculo de probabilidade, e nenhum frequentista os contradiz. O argumento clássico contra os métodos bayesianos invariavelmente envolve a escolha arbitrária de um prior. E priores sensatos são definitivamente possíveis.
Tudo se resume ao uso correto de qualquer método no momento certo. Vi muito poucos argumentos / comparações em que os dois métodos foram aplicados corretamente. Pressupostos de qualquer método são muito subestimados e muitas vezes ignorados.
EDIT: para esclarecer, o problema reside no fato de que a estimativa baseada em p difere da estimativa baseada em t na estrutura bayesiana ao trabalhar com anteriores não informativos (que é, em vários casos, a única solução possível). Isso não é verdade na estrutura de ML para inferência filogenética. Não se trata de um prévio errado, é inerente ao método.
fonte
Intervalos de confiança freqüentistas limitam a taxa de falsos positivos (erros do tipo I) e garantem que sua cobertura seja limitada abaixo pelo parâmetro de confiança, mesmo no pior caso. Intervalos de credibilidade bayesiana não.
Portanto, se você se importa com falsos positivos e precisa limitá-los, os intervalos de confiança são a abordagem que você deseja usar.
Por exemplo, digamos que você tenha um rei mau com uma corte de 100 cortesãos e cortesãs e ele queira jogar um jogo estatístico cruel com eles. O rei tem um saco de um trilhão de moedas justas, mais uma moeda injusta cuja probabilidade de cabeça é de 10%. Ele vai realizar o seguinte jogo. Primeiro, ele sacará uma moeda uniformemente aleatoriamente da sacola.
Em seguida, a moeda será passada em torno de uma sala de 100 pessoas e cada uma será forçada a fazer um experimento em particular, e então cada pessoa indicará um intervalo de incerteza de 95% sobre o que eles acham que é a probabilidade das cabeças da moeda.
Qualquer pessoa que der um intervalo que represente um falso positivo - ou seja, um intervalo que não cubra o verdadeiro valor da probabilidade de cabeças - será decapitada.
Se quiséssemos expressar a função de distribuição / a posteriori / probabilidade do peso da moeda, é claro que um intervalo de credibilidade é o que faz isso. A resposta será sempre o intervalo [0,5, 0,5], independentemente do resultado. Mesmo se você virar zero cara ou uma cabeça, você ainda dirá [0,5, 0,5] porque é muito mais provável que o rei tenha sacado uma moeda justa e você tenha um dia de 1/1024 recebendo dez cabeças seguidas , que o rei sacou a moeda injusta.
Portanto, essa não é uma boa idéia para os cortesãos e cortesãs usarem! Porque quando a moeda injusta é sacada, toda a sala (todas as 100 pessoas) estará errada e todas serão decapitadas.
Neste mundo em que o mais importante são os falsos positivos, o que precisamos é de uma garantia absoluta de que a taxa de falsos positivos será inferior a 5%, independentemente de qual moeda seja sacada. Então, precisamos usar um intervalo de confiança, como Blyth-Still-Casella ou Clopper-Pearson, que funcione e forneça pelo menos 95% de cobertura, independentemente do valor real do parâmetro, mesmo no pior caso . Se todo mundo usar esse método, não importa qual moeda seja sacada, no final do dia, podemos garantir que o número esperado de pessoas erradas não será superior a cinco.
Portanto, o ponto é: se o seu critério exigir delimitar falsos positivos (ou equivalentemente, garantir cobertura), é necessário um intervalo de confiança. É o que eles fazem. Intervalos de credibilidade podem ser uma maneira mais intuitiva de expressar incerteza, eles podem ter um desempenho muito bom a partir de uma análise freqüentista, mas não fornecerão o limite garantido de falsos positivos que você terá quando pedir.
(Obviamente, se você também se importa com falsos negativos, precisará de um método que garanta também esses ...)
fonte
Bernardo propôs uma "referência prévia" para ser usada como padrão para a comunicação científica [e até mesmo um "intervalo de referência credível" ( Bernardo - regiões credíveis objetivas )]. Supondo que essa seja a "abordagem bayesiana", agora a pergunta é: quando um intervalo é superior a outro? As propriedades freqüentistas do intervalo bayesiano nem sempre são ótimas, mas também não são as propriedades bayesianas do "intervalo" freqüentista
(a propósito, o que é "o" intervalo freqüentista?)
fonte