Entendendo o risco de Bayes

9

Ao avaliar um estimador, os dois critérios usados ​​provavelmente mais comuns são o risco máximo e o risco de Bayes. Minha pergunta se refere à última:

O risco de bayes sob o anterior é definido da seguinte forma:π

Bπ(θ^)=R(θ,θ^)π(θ)dθ

Não entendi bem o que o anterior está fazendo e como devo interpretá-lo. Se eu tiver uma função de risco e plotá-la, intuitivamente eu usaria sua área como critério para julgar o quão "forte" o risco está sobre todos os valores possíveis de . Mas envolver o prior de alguma forma destrói essa intuição novamente, embora esteja próxima. Alguém pode me ajudar a interpretar o prior?πR(θ,θ^)θ

Peter Series
fonte
11
Não vejo como a plotagem intuitiva da função de risco pode ser considerada ao considerar vários parâmetros: nesse cenário, as funções se cruzam e não identificam um "melhor" estimador. O risco de Bayes retorna um número único para cada estimador e, portanto, permite a classificação de todos os estimadores.
Xi'an

Respostas:

11

[Aqui está um trecho do meu próprio livro, The Bayesian Choice (2007) , que argumenta a favor de uma abordagem teórica da decisão à análise bayesiana e, portanto, do uso do risco Bayes.]

Exceto pelas configurações mais triviais, geralmente é impossível minimizar uniformemente (em ) a função de perda quando é desconhecido. Para derivar um critério de comparação eficaz da função de perda, a abordagem frequentista propõe considerar, em vez disso, a perda média (ou risco freqüentista ) que é a regra de decisão, ou seja, a alocação de uma decisão para cada resultadodL(θ,d)θ

R(θ,δ)=Eθ[L(θ,δ(x))]=XL(θ,δ(x))f(x|θ)dx,
δ(x)xf(x|θ) do experimento aleatório.

A função , de em , é geralmente chamada estimador (enquanto o valor é chamado estimativa de ). Quando não há risco de confusão, também denotamos o conjunto de estimadores por .δXDδ(x)θD

O paradigma frequentista baseia-se neste critério para comparar estimadores e, se possível, para selecionar o melhor estimador, com o raciocínio de que os estimadores são avaliados em seu desempenho de longo prazo para todos os valores possíveis do parâmetro . Observe, no entanto, que existem várias dificuldades associadas a essa abordagem.θ

  1. O erro (perda) é calculado sobre os diferentes valores de proporcionalmente à densidade . Portanto, parece que a observação não é mais levada em consideração. O critério de risco avalia os procedimentos quanto ao desempenho a longo prazo e não diretamente para a observação fornecida, . Essa avaliação pode ser satisfatória para o estatístico, mas não é tão atraente para um cliente, que deseja ótimos resultados para seus dados , e não para os de outros!xf(x|θ)xxx
  2. A análise freqüentista do problema de decisão pressupõe implicitamente que esse problema será enfrentado repetidamente, para que a avaliação da frequência faça sentido. De fato, é aproximadamente a perda média em relação às repetições anteriores do mesmo experimento, de acordo com a Lei dos Grandes Números. No entanto, por motivos filosóficos e práticos, há muita controvérsia sobre a própria noção de repetibilidade de experimentos (ver Jeffreys (1961)). Por um lado, se novas observações chegarem ao estatístico, ela deve fazer uso delas, e isso pode modificar a maneira como o experimento é conduzido, como, por exemplo, em ensaios médicos.R(θ,δ)
  3. Para um procedimento , o risco é uma função do parâmetro . Portanto, a abordagem freqüentista não induz uma ordem total no conjunto de procedimentos. Geralmente é impossível comparar procedimentos de decisão com esse critério, uma vez que duas funções de risco cruzadas impedem a comparação entre os estimadores correspondentes. Na melhor das hipóteses, pode-se esperar um procedimento que minimize uniformemente , mas esses casos raramente ocorrem, a menos que o espaço dos procedimentos de decisão seja restrito. Os melhores procedimentos só podem ser obtidos restringindo artificialmente o conjunto de procedimentos autorizados.δR(θ,δ)θδ0R(θ,δ)

Exemplo 2.4 - Considere e , duas observações de O parâmetro de interesse é (isto é, ) e é estimado pelos estimadores sob a perda geralmente chamado de perda de , que penaliza erros de estimativa, seja qual for a sua magnitude, em . Considerando o particular \ est sua função de risco é x1x2

Pθ(x=θ1)=Pθ(x=θ+1)=0.5,θR.
θD=Θδ
L(θ,δ)=1Iθ(δ),
01 1
δ0(x1,x2)=x1+x22,
R(θ,δ0)=1Pθ(δ0(x1,x2)=θ)=1Pθ(x1x2)=0.5.
Este cálculo mostra que o estimador está correto na metade do tempo. Na verdade, esse estimador está sempre correto quando e sempre errado, caso contrário. Agora, \ est \ também possui uma função de risco igual a , assim como . Portanto, , e não podem ser classificados com a perda de . δ0x1x2δ1(x1,x2)=x1+10.5δ2(x1,x2)=x21δ0δ1δ201

Pelo contrário, a abordagem bayesiana da teoria da decisão integra-se no espaço pois é desconhecido, em vez de integrar-se no espaço como é conhecido. Ele se baseia na perda esperada posterior que média do erro (isto é, a perda) de acordo com o distribuição posterior do parâmetro , condicionalmente ao valor observado} . Dado , o erro médio resultante da decisão é realmenteΘθXx

ρ(π,d|x)=Eπ[L(θ,d)|x]=ΘL(θ,d)π(θ|x)dθ,
θxxdρ(π,d|x) . A perda posterior esperada é, portanto, uma função de mas essa dependência não é problemática, ao contrário da dependência freqüente do risco no parâmetro, porque , ao contrário de , é conhecido.xxθ
Xi'an
fonte
2
Então você é Christian Robert. Eu conheci George Casella. Eu acho que você publicou livro (s) com ele que eu estou ciente de ..
Michael R. Chernick
11
+1 respostas não fica muito melhor do que isso - grande livro por sinal
Xavier Bourret Sicotte
3

Citando a teoria clássica da decisão estatística de James O. Berger:

[...] Já declaramos que as regras de decisão serão avaliadas em termos de suas funções de risco . [...] O problema, como apontado anteriormente, é que diferentes regras de decisão admissíveis terão riscos melhores para diferentes 's. Para o resgate, vem o , que supostamente reflete quais são os "prováveis" que ocorrerão. Parece muito razoável "ponderar" por e média.R(θ,δ)θπ(θ)θR(θ,δ)π(θ)

Sim, você pode avaliar para cada , mas assumiria implicitamente que cada valor possível de é igualmente provável. No cenário bayesiano, você escolhe que reflete as probabilidades de observar diferentes 's e inclui essas informações.R(θ,δ)θθπ(θ)θ

Tim
fonte