Um estimador de Bayes exige que o parâmetro true seja uma possível variável do anterior?

9

Isso pode ser um pouco de uma pergunta filosófica, mas aqui vamos nós: Na teoria da decisão, o risco de um estimador de Bayes para é definido com relação a uma distribuição anterior on .θq¸qθ^(x)θΘπΘ

Agora, por um lado, para que o verdadeiro tenha gerado os dados (ou seja, "exista"), deve ser uma variável possível em , por exemplo, com probabilidade diferente de zero, densidade diferente de zero, etc .; por outro lado, não é conhecido, portanto, a escolha de um prior, portanto, não temos garantia de que o verdadeiro seja uma variável possível sob o que escolhemos.θ π θ θ πθθπθθπ

Agora, parece-me que, de alguma forma, precisamos selecionar modo que seja uma possível variável. Caso contrário, certos teoremas não se sustentariam. Por exemplo, a estimativa do minimax não seria uma estimativa de Bayes para um anterior menos favorável, uma vez que poderíamos tornar esse anterior arbitrariamente ruim excluindo uma grande região ao redor e incluindo de seu domínio. No entanto, garantir que esteja realmente no domínio pode ser difícil de conseguir.θ θ θπθθθ

Então, minhas perguntas são:

  1. É geralmente assumido que o real é uma possível variável de ?πθπ
  2. Isso pode ser garantido?
  3. Os casos que violam isso podem pelo menos ser detectados de alguma forma, para que não se confie em teoremas como minimax quando as condições não se mantêm?
  4. Se não é necessário, por que os resultados padrão na teoria da decisão se mantêm?
user32849
fonte

Respostas:

6

Muito boa pergunta! Realmente faria sentido que uma distribuição prévia "boa" dê probabilidade positiva ou valor de densidade positivo ao parâmetro "verdadeiro" , mas, de uma perspectiva puramente decisória, isso não precisa ser o caso. Um contra-exemplo simples para essa "intuição" de que deve ser necessário, quando for a densidade anterior e for o valor "true" do parâmetro, é o brilhante resultado de minimaxidade de Casella e Strawderman (1981): ao estimar uma média normal base em uma única observação com a restrição adicional de que , π ( θ 0 ) > 0 π ( ) θ 0 μ x N ( μ , 1 ) | u | < ρ ρ ρ 1,0567 { - ρ , ρ } π - ρ ρ μ π ( θ ) = 1θ0

π(θ0)>0
π()θ0μxN(μ,1)|μ|<ρρé pequeno o suficiente, especificamente, o estimador minimax corresponde a um uniforme (menos favorável) antes de , o que significa que dá peso igual a e ( e nenhum para qualquer outro valor da média ) Quando aumenta o menos favorável, antes seu apoio cresce, mas permanece um conjunto finito de valores possíveis. No entanto, a expectativa posterior, , pode assumir qualquer valor em .ρ1.0567{ρ,ρ}πρρμ
π(θ)=12δρ(θ)+12δρ(θ)
ρE[μ|x](ρ,ρ)

O cerne da discussão (ver comentários) pode ser que, se o estimador de Bayes fosse limitado a ser um ponto no suporte de , suas propriedades seriam bem diferentes.π()

Da mesma forma, ao considerar estimadores admissíveis, os estimadores de Bayes associados a um prévio adequado em um conjunto compacto geralmente são admissíveis, embora tenham um suporte restrito.

Em ambos os casos, a noção frequentista (minimaxidade ou admissibilidade) é definida sobre o intervalo possível de parâmetros, e não no valor "verdadeiro" do parâmetro (o que traz uma resposta à pergunta 4.) Por exemplo, olhando para o risco posterior ou sob o risco de Bayes não envolve o valor verdadeiro .

ΘL(θ,δ)π(θ|x)dθ
XΘL(θ,δ)π(θ)f(x|θ)dθdx
θ0

Além disso, como apontado no exemplo acima, quando o estimador de Bayes é definido por uma expressão formal como a média posterior para a perda quadrática (ou ), esse estimador pode levar valores fora do suporte de nos casos em que esse suporte não é convexo.L2π

θ^π(x)=Θθπ(θ|x)dθ
L2π

Como um aparte, ao ler

para que o θ verdadeiro tenha gerado os dados (ou seja, "exista"), θ deve ser uma variável possível em π, por exemplo, ter probabilidade diferente de zero, densidade diferente de zero

Considero uma deturpação do significado de um prior. A distribuição anterior não deve representar um mecanismo físico (ou real) real que viu um valor de parâmetro gerado a partir de seguido de uma observação gerada a partir de . O prior é uma medida de referência no espaço do parâmetro que incorpora informações anteriores e crenças subjetivas sobre o parâmetro e que não é de forma alguma exclusivo. Uma análise bayesiana é sempre relativa ao anterior escolhido para conduzir essa análise bayesiana. Portanto, não há uma necessidade absoluta de que o parâmetro true pertença ao suporte de . Obviamente, quando esse suporte é um conjunto conectado compacto, π x f ( x | θ 0 ) π A A θ πθ0πxf(x|θ0)πA, qualquer valor do parâmetro fora do conjunto não pode ser constantemente estimado pela média posterior mas isso nem impede que o estimador seja admissível.Aθ^π

Xi'an
fonte
Com relação ao seu último ponto, é isso que me confunde: digamos que eu tenha uma distribuição normal com sendo um número negativo suficientemente pequeno. Se, por algum motivo estranho, eu colocar um log-normal anterior (support ) em (independentemente de quanto sentido isso faça), um estimador Bayes com esse prior seria certamente pior do que a estimativa minimax , o que não deveria acontecer. Mas talvez eu esteja interpretando mal alguma coisa aqui ...[ 0 , + ) μμ[0,+)μ
user32849
11
Geralmente, conforme Berger (1985), um anterior menos favorável corresponde ao risco minimax.
Xi'an
11
Fiquei realmente confuso aqui: seu livro (capítulo 2) parecia assumir que e, especificamente, no teorema 2.4.17, , onde o menos favorável prior é uma distribuição discreta sobre . Mas eu acho que eu deveria ter lido página 10 com mais cuidado ;-)Θ = [ - m , m ] Θθπ(θ)Θ=[m,m]Θ
user32849
11
O risco integrado não envolve o parâmetro "true" em nenhum estágio. Portanto, nesse sentido, não importa.
Xian
11
Então, de certa forma, o risco captura a perda que esperamos, não a que realmente experimentamos. Isso tem sido tremendamente útil, muito obrigado!
User32849
8
  1. Sim, geralmente supõe-se que o verdadeiro esteja no domínio do anterior. É da responsabilidade do estatístico verificar que este é o caso.θ

  2. Geralmente sim. Por exemplo, ao estimar um parâmetro de média ou localização, qualquer anterior em terá o valor verdadeiro em seu domínio. (Se se sabe que o parâmetro é maior que zero, por exemplo, "número médio de acidentes de trânsito na Bay Bridge por dia", o anterior não precisa incluir valores negativos, obviamente.) Se estivermos estimando uma probabilidade, qualquer anterior em terá o valor verdadeiro em seu domínio. Se estivermos construindo um prior em um termo de variação, qualquer prior em terá o valor verdadeiro em seu domínio ... e assim por diante.[ 0 , 1 ] ( 0 , )(,)[0,1](0,)

  3. Se o seu posterior estiver "empilhado" em uma extremidade do domínio do anterior e o seu prior impuser uma restrição desnecessária ao domínio na mesma extremidade, este é um indicador ad-hoc de que a restrição desnecessária pode estar causando problemas. Porém, isso só deve ocorrer se: a) você construiu um prior cuja forma é orientada principalmente pela conveniência, em vez do conhecimento prévio real eb) a forma induzida pelo conveniência do prior restringe o domínio do parâmetro a um subconjunto do que é " domínio "natural" pode ser considerado.

Um exemplo disso é uma prática antiga, esperançosamente obsoleta, de limitar o anterior a um termo de variação ligeiramente distante de zero, a fim de evitar possíveis dificuldades computacionais. Se o valor real da variação estiver entre o limite e o zero, bem ... mas, na verdade, pensar nos valores potenciais da variação dados os dados, ou (por exemplo) colocar o anterior no log da variação, permitirá você deve evitar esse problema, e esperteza moderada semelhante deve evitar, em geral, os antecedentes limitadores de domínio.

  1. Respondida por # 1.
jbowman
fonte
2
Com a pouca chance de que quem recusou a resposta retorne - por que o "não é útil"?
jbowman
3

A resposta simples e intuitiva é que anterior reflete seu conhecimento prévio sobre o e o conhecimento mínimo que você deve ter, é sobre seu domínio. Se você usar bounded before, assume que os valores fora dos limites têm probabilidade zero, são impossíveis e essa é uma suposição muito forte que não deve ser feita sem uma boa lógica. É por isso que as pessoas que não querem fazer suposições prévias fortes, usam prévias vagas em a .- θ

Além do caso delimitado, quando sua amostra cresce, ou mais precisamente transmite mais informações, seu posterior deve finalmente convergir para não importa o prévio .θ

Tim
fonte