Estimando o parâmetro de uma distribuição uniforme: inadequado antes?

10

Temos N amostras, , de uma distribuição uniforme onde é desconhecida. Estime partir dos dados. [ 0 , θ ] θ θXi[0,θ]θθ

Então, o governo de Bayes ...

f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)

e a probabilidade é:

f(Xi|θ)=i=1N1θ (editar: quando para todos os e 0 caso contrário - obrigado whuber)i0Xiθi

mas sem outras informações sobre , parece que o prior deve ser proporcional a (ou seja, uniforme) ou a (Jeffreys prior?) em mas minhas integrais não convergir, e não tenho certeza de como proceder. Alguma ideia?1 1θ1 [0,]1L[0,]

Vai
fonte
2
Sua probabilidade está incorreta: será zero sempre que for menor que o maior . X iθXi
whuber
Você pode mostrar quais integrais você está recebendo?
Sim, acho que simplesmente não sei como lidar com o anterior impróprio. Por exemplo, eu quero escreverf[Xi]=Θf(Xi|θ)f(θ)dθ
Será
1
Para o anterior impróprio, = = e para o anterior você obtém da mesma formaComo quase certamente, é certo que as integrais convergirão. f[Xi]=Θf(Xi|θ)f(θ)dθmax(Xi)θNdθmax(Xi)1N/(N1)f(θ)1/θmax(Xi)N/N.maxXi>0
whuber
1
A referência posterior de Bernardo é Pareto - veja o catálogo de anteriores não informativos .
Stéphane Laurent

Respostas:

4

Isso gerou um debate interessante, mas observe que realmente não faz muita diferença para a questão do interesse. Pessoalmente, acho que porque é um parâmetro de escala, o argumento do grupo de transformação é apropriado, levando a um anterior deθ

p(θ|I)=θ1log(UL)θ1L<θ<U

Essa distribuição tem a mesma forma no redimensionamento do problema (a probabilidade também permanece "invariável" no redimensionamento). O núcleo deste anterior, pode ser derivado resolvendo a equação funcional . Os valores dependem do problema e realmente importam apenas se o tamanho da amostra for muito pequeno (como 1 ou 2). O posterior é um pareto truncado, dado por:f(y)=y1af(ay)=f(y)L,U

p(θ|DI)=NθN1(L)NUNL<θ<UwhereL=max(L,X(N))
Onde é o enésimo estatística do pedido ou o valor máximo da amostra. Obtemos a média posterior de Se defina e , obtemos a expiração mais simples .X(N)
E(θ|DI)=N((L)1NU1N)(N1)((L)NUN)=NN1L(1[LU]N11[LU]N)
UL0E(θ|DI)=NN1X(N)

Mas agora suponha que usamos um prior mais geral, dado por (observe que mantemos os limites para garantir que tudo esteja correto - nenhuma matemática singular então ) O posterior é o mesmo que acima, mas com substituído por - desde que . Repetindo os cálculos acima, a média posterior simplificada dep(θ|cI)θc1L,UNc+Nc+N0

E(θ|DI)=N+cN+c1X(N)

Portanto, o uniforme anterior ( ) fornecerá uma estimativa de desde que (a média seja infinita para ). Isso mostra que o debate aqui é um pouco como usar ou como o divisor na estimativa de variância.c=1N1N2X(N)N2N=2NN1

Um argumento contra o uso do uniforme impróprio anteriormente neste caso é que o posterior é impróprio quando , pois é proporcional a . Mas isso só importa se ou for muito pequeno.N=1θ1N=1

probabilityislogic
fonte
1

Como o objetivo aqui é presumivelmente obter alguma estimativa válida e útil de , a distribuição anterior deve ser consistente com a especificação da distribuição da população da qual a amostra vem. Isso NÃO significa que "calculamos" o anterior usando a própria amostra - isso anularia a validade de todo o procedimento. Sabemos que a população da qual a amostra provém é uma população de variáveis ​​aleatórias uniformes de iid, cada uma variando em . Esta é uma suposição mantida e faz parte das informações anteriores que possuímos (e não tem nada a ver com a amostra , isto é, com uma realização específica de um subconjunto dessas variáveis ​​aleatórias).θ[0,θ]

Agora suponha que essa população consista em variáveis ​​aleatórias (enquanto nossa amostra consiste em realizações de variáveis ​​aleatórias). A suposição mantida nos diz que mn<mn

maxi=1,...,n{Xi}maxj=1,...,m{Xj}θ

Indique para compacidade . Então temos que também pode ser escrito maxi=1,...,n{Xi}XθX

θ=cXc1

A função densidade dos de iid Uniform rv variando em é maxN[0,θ]

fX(x)=N(x)N1θN

para o suporte e zero em outro lugar. Então, usando e aplicando a fórmula de mudança de variável, obtemos uma distribuição anterior para que é consistente com a suposição mantida: [0,θ]θ=cXθ

fp(θ)=N(θc)N1θN1c=NcNθ1θ[x,]

o que pode ser impróprio se não especificarmos a constante adequadamente. Mas nosso interesse reside em ter um posterior apropriado para e também não queremos restringir os possíveis valores de (além da restrição implícita na suposição mantida). Então deixamos indeterminado. Então, escrevendo a parte posterior écθθc
X={x1,..,xn}

f(θX)θNNcNθ1f(θX)=ANcNθ(N+1)

para alguma constante de normalização A. Queremos

Sθf(θX)dθ=1xANcNθ(N+1)dθ=1

ANcN1NθN|x=1A=(cx)N

Inserindo na parte posterior

f(θX)=(cx)NNcNθ(N+1)=N(x)Nθ(N+1)

Observe que a constante indeterminada da distribuição anterior foi cancelada convenientemente.c

O posterior resume todas as informações que a amostra específica pode nos fornecer sobre o valor de . Se queremos obter um valor específico para , podemos calcular facilmente o valor esperado do posterior, θθ

E(θX)=xθN(x)Nθ(N+1)dθ=NN1(x)NθN+1|x=NN1x

Existe alguma intuição nesse resultado? Bem, à medida que o número de aumenta, o mais provável é que a realização máxima entre eles esteja cada vez mais próxima de seu limite superior, - que é exatamente o que o valor médio posterior de reflete: se, por exemplo, , , mas se . Isso mostra que nossa tática em relação à seleção do prior era razoável e consistente com o problema em questão, mas não necessariamente "ideal" em algum sentido.XθθN=2E(θX)=2xN=10E(θX)=109x

Alecos Papadopoulos
fonte
1
Basear o anterior nos dados parece suspeito para mim. Como você justifica essa abordagem?
whuber
2
Não tenho nada contra o fato de que seu prior não é "o melhor". Onde eu disse algo assim? Estou apenas tentando entender sua abordagem. Ainda não entendo essa igualdade. Se é constante na igualdade , isso significa que e são não aleatórios? A propósito, você não usa o fato de que na derivação do anterior, usa ? (cc @whuber)cθ=cXXθc1
Stéphane Laurent
1
E o apoio do seu prior depende dos dados? ( )θ[x,[
Stéphane Laurent
3
Uma dependência prévia (mesmo que seja apenas através do suporte) dos dados parece errada: você não pode saber o máximo da amostra antes que a amostra tenha sido gerada . Além disso, você afirma que é uma igualdade quase certa, com e aleatórios (portanto, existe a correlação ). Mas isso implica que a distribuição posterior de (que é a distribuição condicional de dada a amostra) é a massa de Dirac em . E isso contradiz sua derivação da distribuição posterior. ... (nenhum caractere restante ...)θ=cXθX1θθcx
Stéphane Laurent
1
A distribuição posterior de é Dirac em significa que é . O teorema de Bayes não é a causa. Você destrói tudo assumindo . Isso implica em , portanto, a distribuição condicional de dada é a massa de Dirac em , enquanto a suposição original é que essa distribuição é a distribuição uniforme em . θcxθ cxθ=cXX=θ/cXθθ/c(0,θ)
Stéphane Laurent
0

Teorema uniforme de distribuição anterior (maiúsculas e minúsculas):

"Se a totalidade de Suas informações sobre externa aos dados for capturada pela proposição única então Sua única especificação anterior consistente em termos logicamente internos é θD

B={{Possible values for θ}={the interval (a,b)},a<b}
f(θ)=Uniform(a,b)

Assim, sua especificação anterior deve corresponder à de Jeffrey, se você realmente acredita no teorema acima. "

Não faz parte do teorema uniforme de distribuição anterior:

Como alternativa, você pode especificar sua distribuição anterior como uma distribuição de Pareto, que é a distribuição conjugada do uniforme, sabendo que sua distribuição posterior terá que ser outra distribuição uniforme por conjugação. No entanto, se você usar a distribuição Pareto, precisará especificar parâmetros da distribuição Pareto de alguma forma.f(θ)


fonte
4
Primeiro, você diz que a resposta "única possível logicamente consistente internamente" é uma distribuição uniforme e depois propõe uma alternativa. Isso parece ilógico e inconsistente para mim :-).
whuber
2
Eu não posso concordar. Por exemplo, também é o conjuntoQuando o PDF de é para . Mas, de acordo com o "teorema", cujo pdf é nesse intervalo. Em resumo, embora a proposição não dependa de como o problema é parametrizado, a conclusão do "teorema" depende da parametrização, de onde é ambígua. B{θ|θ3(a3,b3)}.ΘUniform(a,b),Ψ=Θ31/(3ψ2/3(ba))a3<ψ<b3ΨUniform(a3,b3)1/(b3a3)
whuber
2
BabakP: Como alguém poderia dizer que isso é um teorema ? Um teorema é uma afirmação matemática com uma prova matemática. Esse "teorema" seria mais apropriadamente denominado como "princípio", mas não é sensato porque é contraditório, como mostra @whuber.
Stéphane Laurent
2
Obrigado pela referência BabakP. Eu gostaria de salientar que o "esboço da prova" é falso. Draper divide o intervalo em um número finito de valores igualmente espaçados e "passa para o limite". Qualquer um pode dividir o intervalo em valores espaçados para aproximar-se de qualquer densidade que desejar e, de maneira semelhante, passar para o limite, produzindo perfeitamente arbitrário "apenas possíveis especificações prévias logicamente internamente consistentes". Esse tipo de coisa - ou seja, usar matemática ruim em um esforço para mostrar que não-bayesianos são ilógicos - dá à análise bayesiana um nome (imerecido) ruim. (cc @ Stéphane.)
whuber
1
@ Stéphane Por favor, perdoe minha insensibilidade ( insensibilité ) - admiro sua habilidade de interagir aqui em um segundo idioma e não uso conscientemente termos obscuros! Bogus é um adjetivo que vem de uma gíria americana de 200 anos que se refere a uma máquina para falsificar dinheiro. Nesse caso, é uma máquina matemática para falsificar teoremas :-).
whuber