Muito boa pergunta! Realmente faria sentido que uma distribuição prévia "boa" dê probabilidade positiva ou valor de densidade positivo ao parâmetro "verdadeiro" , mas, de uma perspectiva puramente decisória, isso não precisa ser o caso. Um contra-exemplo simples para essa "intuição" de que deve ser necessário, quando for a densidade anterior e for o valor "true" do parâmetro, é o brilhante resultado de minimaxidade de Casella e Strawderman (1981): ao estimar uma média normal base em uma única observação com a restrição adicional de que , π ( θ 0 ) > 0 π ( ⋅ ) θ 0 μ x ∼ N ( μ , 1 ) | u | < ρ ρ ρ ≤ 1,0567 { - ρ , ρ } π - ρ ρ μ π ( θ ) = 1θ0
π(θ0)>0
π(⋅)θ0μx∼N(μ,1)|μ|<ρρé pequeno o suficiente, especificamente, o estimador minimax corresponde a um uniforme (menos favorável) antes de , o que significa que dá peso igual a e ( e nenhum para qualquer outro valor da média )
Quando aumenta o menos favorável, antes seu apoio cresce, mas permanece um conjunto finito de valores possíveis. No entanto, a expectativa posterior, , pode assumir qualquer valor em .
ρ≤1.0567{−ρ,ρ}π−ρρμπ(θ)=12δ−ρ(θ)+12δρ(θ)
ρE[μ|x](−ρ,ρ)
O cerne da discussão (ver comentários) pode ser que, se o estimador de Bayes fosse limitado a ser um ponto no suporte de
, suas propriedades seriam bem diferentes.π(⋅)
Da mesma forma, ao considerar estimadores admissíveis, os estimadores de Bayes associados a um prévio adequado em um conjunto compacto geralmente são admissíveis, embora tenham um suporte restrito.
Em ambos os casos, a noção frequentista (minimaxidade ou admissibilidade) é definida sobre o intervalo possível de parâmetros, e não no valor "verdadeiro" do parâmetro (o que traz uma resposta à pergunta 4.) Por exemplo, olhando para o risco posterior
ou sob o risco de Bayes
não envolve o valor verdadeiro .
∫ΘL(θ,δ)π(θ|x)dθ
∫X∫ΘL(θ,δ)π(θ)f(x|θ)dθdx
θ0
Além disso, como apontado no exemplo acima, quando o estimador de Bayes é definido por uma expressão formal como a média posterior
para a perda quadrática (ou ), esse estimador pode levar valores fora do suporte de nos casos em que esse suporte não é convexo.L2π
θ^π(x)=∫Θθπ(θ|x)dθ
L2π
Como um aparte, ao ler
para que o θ verdadeiro tenha gerado os dados (ou seja, "exista"), θ deve ser uma variável possível em π, por exemplo, ter probabilidade diferente de zero, densidade diferente de zero
Considero uma deturpação do significado de um prior. A distribuição anterior não deve representar um mecanismo físico (ou real) real que viu um valor de parâmetro gerado a partir de seguido de uma observação gerada a partir de . O prior é uma medida de referência no espaço do parâmetro que incorpora informações anteriores e crenças subjetivas sobre o parâmetro e que não é de forma alguma exclusivo. Uma análise bayesiana é sempre relativa ao anterior escolhido para conduzir essa análise bayesiana. Portanto, não há uma necessidade absoluta de que o parâmetro true pertença ao suporte de . Obviamente, quando esse suporte é um conjunto conectado compacto, π x f ( x | θ 0 ) π A A θ πθ0πxf(x|θ0)πA, qualquer valor do parâmetro fora do conjunto não pode ser constantemente estimado pela média posterior mas isso nem impede que o estimador seja admissível.Aθ^π
Sim, geralmente supõe-se que o verdadeiro esteja no domínio do anterior. É da responsabilidade do estatístico verificar que este é o caso.θ
Geralmente sim. Por exemplo, ao estimar um parâmetro de média ou localização, qualquer anterior em terá o valor verdadeiro em seu domínio. (Se se sabe que o parâmetro é maior que zero, por exemplo, "número médio de acidentes de trânsito na Bay Bridge por dia", o anterior não precisa incluir valores negativos, obviamente.) Se estivermos estimando uma probabilidade, qualquer anterior em terá o valor verdadeiro em seu domínio. Se estivermos construindo um prior em um termo de variação, qualquer prior em terá o valor verdadeiro em seu domínio ... e assim por diante.[ 0 , 1 ] ( 0 , ∞ )(−∞,∞) [0,1] (0,∞)
Se o seu posterior estiver "empilhado" em uma extremidade do domínio do anterior e o seu prior impuser uma restrição desnecessária ao domínio na mesma extremidade, este é um indicador ad-hoc de que a restrição desnecessária pode estar causando problemas. Porém, isso só deve ocorrer se: a) você construiu um prior cuja forma é orientada principalmente pela conveniência, em vez do conhecimento prévio real eb) a forma induzida pelo conveniência do prior restringe o domínio do parâmetro a um subconjunto do que é " domínio "natural" pode ser considerado.
Um exemplo disso é uma prática antiga, esperançosamente obsoleta, de limitar o anterior a um termo de variação ligeiramente distante de zero, a fim de evitar possíveis dificuldades computacionais. Se o valor real da variação estiver entre o limite e o zero, bem ... mas, na verdade, pensar nos valores potenciais da variação dados os dados, ou (por exemplo) colocar o anterior no log da variação, permitirá você deve evitar esse problema, e esperteza moderada semelhante deve evitar, em geral, os antecedentes limitadores de domínio.
fonte
A resposta simples e intuitiva é que anterior reflete seu conhecimento prévio sobre o e o conhecimento mínimo que você deve ter, é sobre seu domínio. Se você usar bounded before, assume que os valores fora dos limites têm probabilidade zero, são impossíveis e essa é uma suposição muito forte que não deve ser feita sem uma boa lógica. É por isso que as pessoas que não querem fazer suposições prévias fortes, usam prévias vagas em a .- ∞ ∞θ −∞ ∞
Além do caso delimitado, quando sua amostra cresce, ou mais precisamente transmite mais informações, seu posterior deve finalmente convergir para não importa o prévio .θ
fonte