Qual é a justificativa teórica da decisão para procedimentos de intervalo credível bayesiano?

20

(Para saber por que escrevi isso, verifique os comentários abaixo da minha resposta a esta pergunta .)

Erros do tipo III e teoria da decisão estatística

Às vezes, dar a resposta certa à pergunta errada é chamado de erro Tipo III. A teoria da decisão estatística é uma formalização da tomada de decisão sob incerteza; fornece uma estrutura conceitual que pode ajudar a evitar erros do tipo III. O elemento chave da estrutura é chamado de função de perda . São necessários dois argumentos: o primeiro é (o subconjunto relevante) o verdadeiro estado do mundo (por exemplo, em problemas de estimativa de parâmetros, o verdadeiro valor do parâmetro ); o segundo é um elemento no conjunto de ações possíveis (por exemplo, em problemas de estimativa de parâmetros, a estimativaq )θθ^). A saída modela a perda associada a todas as ações possíveis em relação a todos os possíveis estados reais do mundo. Por exemplo, em problemas de estimativa de parâmetros, algumas funções de perda bem conhecidas são:

  • a perda de erro absolutaL(θ,θ^)=|θθ^|
  • a perda de erro ao quadradoL(θ,θ^)=(θθ^)2
  • Perda LINEX de Hal VarianL(θ,θ^;k)=exp(k(θθ^))k(θθ^)1, k0

Examinando a resposta para encontrar a pergunta

Há um caso em que se pode tentar fazer com que erros do tipo III possam ser evitados, concentrando-se na formulação de uma função de perda correta e prosseguindo com o restante da abordagem teórica da decisão (não detalhada aqui). Esse não é o meu resumo - afinal, os estatísticos estão bem equipados com muitas técnicas e métodos que funcionam bem, mesmo que não sejam derivados dessa abordagem. Mas o resultado final, parece-me, é que a grande maioria dos estatísticos não conhece e não se importa com a teoria da decisão estatística, e acho que eles estão perdendo. Para esses estatísticos, eu argumentaria que a razão pela qual eles podem achar valiosa a teoria da decisão estatística em termos de evitar erros do tipo III é porque ela fornece uma estrutura na qual é possível solicitar qualquer procedimento de análise de dados proposto:com qual função de perda (se houver) o procedimento lida de maneira ideal? Ou seja, em que situação de tomada de decisão exatamente ela fornece a melhor resposta?

Perda esperada posterior

De uma perspectiva bayesiana, a função de perda é tudo o que precisamos. Podemos pular o restante da teoria da decisão - quase por definição, a melhor coisa a fazer é minimizar a perda esperada posterior, ou seja, encontrar a ação que minimiza .˜ L ( a ) = Θ L ( θ , a ) p ( θ | D ) d θaL~(a)=ΘL(θ,a)p(θ|D)dθ

(E quanto às perspectivas não bayesianas? Bem, é um teorema da teoria da decisão freqüentista - especificamente, o Teorema da Classe Completa de Wald - de que a ação ideal sempre será minimizar a perda esperada posterior bayesiana em relação a alguns (possivelmente impróprios) A dificuldade com esse resultado é que o teorema da existência não fornece orientação quanto ao uso anterior, mas restringe frutuosamente a classe de procedimentos que podemos "inverter" para descobrir exatamente qual é a pergunta que estamos fazendo. Em particular, o primeiro passo para inverter qualquer procedimento não bayesiano é descobrir qual procedimento bayesiano (se houver) ele replica ou aproxima.)

Ei, Cyan, você sabe que este é um site de perguntas e respostas, certo?

O que me leva - finalmente - a uma questão estatística. Nas estatísticas bayesianas, ao fornecer estimativas de intervalo para parâmetros univariados, dois procedimentos comuns de intervalo credível são o intervalo credível baseado em quantil e o maior intervalo credível de densidade posterior. Quais são as funções de perda por trás desses procedimentos?

Ciano
fonte
Muito agradável. Mas elas são as únicas funções de perda que justificam esses procedimentos?
guest
1
@ Cyan >> Obrigado por fazer e responder a pergunta para mim :) Vou ler tudo isso e votar sempre que possível.
Stéphane Laurent
4
Citação interessante da teoria da decisão estatística de Berger e da análise bayesiana : "não vemos conjuntos credíveis como tendo um claro papel teórico da decisão e, portanto, desconfiamos de abordagens de 'otimização' para a seleção de um conjunto credível"
Simon Byrne,
1
@ Simon Byrne >> 1985 foi há muito tempo; Eu me pergunto se ele ainda pensa isso.
Cyan
1
@Cyan: Eu não sei, mas a teoria da decisão é a única parte das estatísticas bayesianas que não mudou muito nos últimos 27 anos (houve alguns resultados interessantes, mas o livro de Berger ainda é a referência padrão), especialmente quando comparado com a popularidade, o minimax resulta em estatísticas freqüentes.
Simon Byrne

Respostas:

15

Na estimativa de intervalo univariada, o conjunto de ações possíveis é o conjunto de pares ordenados que especificam os pontos finais do intervalo. Deixe um elemento desse conjunto ser representado por .(a,b), ab

Intervalos de densidade posterior mais altos

Seja a densidade posterior . Os intervalos de densidade posterior mais altos correspondem à função de perda que penaliza um intervalo que falha em conter o valor verdadeiro e também penaliza os intervalos na proporção do seu comprimento:f(θ)

LHPD(θ,(a,b);k)=I(θ[a,b])+k(ba),0<kmaxθf(θ) ,

onde é a função do indicador . Isso dá a perda posterior esperadaI()

L~HPD((a,b);k)=1Pr(aθb|D)+k(ba) .

Definir produz a condição necessária para um ideal local no interior do espaço do parâmetro: - exatamente a regra para intervalos de HPD, conforme o esperado.f(a)=f(b)=kaL~HPD=bL~HPD=0f(a)=f(b)=k

A forma de fornece algumas dicas sobre por que os intervalos de HPD não são invariantes a uma transformação crescente monótona do parâmetro. O -espaço HPD intervalo transformados em espaço é diferente do -espaço HPD intervalo porque os dois intervalos correspondem a diferentes funções de perda: o -espaço HPD intervalo corresponde ao uma penalidade de comprimento transformada .g(θ)θg(θ)g(θ)L~HPD((a,b);k)g(θ)θg(θ)g(θ)k ( g ( b ) - g ( a ) )g(θ)k(g(b)g(a))

Intervalos credíveis baseados em quantis

Considere a estimativa de pontos com a função de perda

Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1 .

A perda esperada posterior é

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^) .

A configuração produz a equação implícitaddθ^L~q=0

Pr(θ<θ^|D)=p ,

isto é, o ideal é o % da distribuição posterior, conforme o esperado. (100p)θ^(100p)

Assim, para obter estimativas de intervalo baseadas em quantis, a função de perda é

LqCI(θ,(a,b);pL,pU)=Lq(θ,a;pL)+Lq(θ,b;pU) .

Ciano
fonte
1
Outra maneira de motivar isso é reescrever a função de perda como uma soma (ponderada) da largura do intervalo mais a distância, se houver, pela qual o intervalo falha em cobrir o verdadeiro . θ
guest
Existe alguma outra maneira de pensar em intervalos baseados em quantis que não fazem referência direta a quantis ou à duração do intervalo. Eu estava esperando por algo como "o quantil intervalo maximiza / minimiza a média / mínima / máxima / etc algo medida."
Rasmus Baath
@ RasmusBååth, você está basicamente perguntando: "quais são as condições necessárias na função de perda para que os intervalos quantílicos sejam a solução para a minimização da perda posterior esperada?" Minha intuição, justamente pela maneira como a matemática funciona no sentido da frente, é que é isso mesmo. Não provei isso, no entanto.
Cyan
Portanto, não tenho certeza sobre uma função de perda, mas conheço um procedimento que, dependendo da função de perda de pontos , resultará em um intervalo de HPD ou de quantil. Suponha que você tenha amostras aleatórias extraídas do posterior. 1. Selecione o ponto em com a menor perda posterior e adicione esse ponto ao seu intervalo. 2. Remova esse ponto de , devido a essa remoção, a perda posterior para os pontos restantes em pode agora mudar (dependendo de ). 3. Seja feliz se o seu intervalo tiver a cobertura necessária, caso contrário, repita a partir de (1). L = L0 fornece HPD, L = L1 fornece intervalo quantil. s s s s LLssssL
Rasmus Bååth
5
apenas mencionar que a Seção 5.5.3 do Bayesian Escolha cobre a derivação baseada em perda de conjuntos credíveis ...
Xi'an
1

Intervalos de tamanho mínimo

Uma escolha óbvia de uma função de perda para a seleção de intervalos (bayesiana e freqüentista) é usar o tamanho dos intervalos medidos em termos das distribuições marginais. Assim, comece com a propriedade desejada ou a função de perda e obtenha os intervalos ideais. Isso tende a não ser feito, como é exemplificado pela presente questão, mesmo que seja possível. Para conjuntos credíveis bayesianos, isso corresponde a minimizar a probabilidade anterior do intervalo ou a maximizar a crença relativa, por exemplo, conforme descrito em Evans (2016). O tamanho também pode ser usado para selecionar conjuntos de confiança freqüentistas (Schafer 2009). As duas abordagens estão relacionadas e podem ser implementadas com bastante facilidade por meio de regras de decisão que preferencialmente incluíam decisões com grandes informações mútuas pontuais (Bartels 2017).

Bartels, C., 2017. Utilizando conhecimentos prévios em testes freqüentistas. compartilhamento de figo. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Medição de evidência estatística usando crença relativa. Revista de biotecnologia computacional e estrutural, 14, pp.91-96.

Schafer, CM e Stark, PB, 2009. Construindo regiões de confiança com o tamanho ideal esperado. Jornal da Associação Estatística Americana, 104 (487), pp.1080-1089.

user36160
fonte
Vejo que você está citando Evans, de acordo com a sugestão de Keith O'Rourke ( andrewgelman.com/2016/07/17/… ). Eu realmente gosto das coisas de Evans.
Cyan
Estou muito satisfeito por ter sido informado por Keith sobre um trabalho que começa de maneira diferente, mas termina em conclusões semelhantes! Importante citar isso.
precisa saber é o seguinte