Como fazer uma estimativa, quando apenas estatísticas resumidas estão disponíveis?

17

Isso é em parte motivado pela pergunta a seguir e pela discussão a seguir.

Suponha que a amostra iid seja observada, . O objetivo é estimar . Mas a amostra original não está disponível. Em vez disso, temos algumas estatísticas da amostra . Suponha que seja fixo. Como estimamos ? Qual seria o estimador de probabilidade máxima neste caso?XiF(x,θ)θT1,...,Tkkθ

mpiktas
fonte
1
Se para uma função conhecida f , então você pode escrever para baixo a distribuição de T i ea probabilidade estimador de máxima é derivado da maneira usual. Mas você não precised quais são os T i ? Ti=f(Xi)fTiTi
Stéphane Laurent
3
Estou interessado no caso em que para conhecido f . Isso foi o que eu quis dizer quando eu disse que T i são estatísticas da amostra. Ti=f(X1,...,Xn)fTi
mpiktas 21/09/12
Então, qual é a diferença entre e T j ? TiTj
Stéphane Laurent
2
Desculpe, isso deveria ter sido , não um f . Temos várias funções f i , que tomam como uma amostra argumento inteiro. fiffi
precisa saber é o seguinte
Não é para isso que a entropia máxima foi projetada?
probabilityislogic

Respostas:

14

Nesse caso, você pode considerar uma aproximação ABC da probabilidade (e consequentemente do MLE ) sob a seguinte premissa / restrição:

Suposição. O tamanho da amostra original é conhecido.n

Esta não é uma suposição absurda, uma vez que a qualidade, em termos de convergência, de estimadores freqüentistas depende do tamanho da amostra, portanto, não é possível obter estimadores arbitrariamente bons sem conhecer o tamanho da amostra original.

A idéia é gerar uma amostra a partir da distribuição posterior de e, para produzir uma aproximação do MLE , você pode usar uma técnica de amostragem importante, como em [1], ou considerar um uniforme anterior em θ, com suporte em um suporte adequado. definido como em [2] .θθ

Vou descrever o método em [2]. Primeiro de tudo, deixe-me descrever o amostrador ABC.

ABC Sampler

Seja o modelo que gera a amostra, onde θ Θ é um parâmetro (a ser estimado), T seja uma estatística (uma função da amostra) e T 0 seja a estatística observada, no jargão ABC isso é chamado de estatística sumária , ρ ser uma métrica, π ( θ ) uma distribuição prévia em θ e ε > 0 a tolerância. Em seguida, o amostrador de rejeição ABC pode ser implementado da seguinte maneira.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. Amostra de π ( ) .θπ()
  2. Gere uma amostra de tamanho n do modelo f ( | θ ) .xnf(|θ)
  3. Calcule .T=T(x)
  4. Se , aceite θ como uma simulação a partir do posterior de θ .ρ(T,T0)<ϵθθ

Este algoritmo gera uma amostra aproximada da distribuição posterior de dado T ( x ) = T 0 . Portanto, o melhor cenário é quando a estatística T é suficiente, mas outras estatísticas podem ser usadas. Para uma descrição mais detalhada disso, consulte este documento .θT(x)=T0T

Agora, em uma estrutura geral, se alguém usar um uniforme anterior que contenha o MLE em seu suporte, o Máximo a posteriori (PAM) coincidirá com o Estimador de Máxima Verossimilhança (MLE). Portanto, se você considerar um uniforme apropriado antes no ABC Sampler, poderá gerar uma amostra aproximada de uma distribuição posterior cujo MAP coincida com o MLE. O passo restante consiste em estimar este modo. Este problema foi discutido no CV, por exemplo, em "Estimativa computacionalmente eficiente do modo multivariado" .

Um exemplo de brinquedo

Deixe ser uma amostra a partir de um N ( μ , 1 ) e supor que a única informação disponível a partir desta amostra é ˉ x = 1(x1,...,xn)N(μ,1). Sejaρa métrica euclidiana emReϵ=0,001. O código R a seguir mostra como obter um MLE aproximado usando os métodos descritos acima, usando uma amostra simulada comn=100eμ=0, uma amostra da distribuição posterior do tamanho1000, um uniforme anterior paraμon(-0,3,0,3)e um estimador de densidade de kernel para a estimativa do modo da amostra posterior (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Como você pode ver, usando uma pequena tolerância, obtemos uma aproximação muito boa do MLE (que neste exemplo trivial pode ser calculado a partir da estatística, desde que seja suficiente). É importante notar que a escolha da estatística resumida é crucial. Os quantiles geralmente são uma boa opção para a estatística resumida, mas nem todas as opções produzem uma boa aproximação. Pode ser que a estatística resumida não seja muito informativa e, em seguida, a qualidade da aproximação possa ser ruim, o que é bem conhecido na comunidade do ABC.

Atualização: Uma abordagem semelhante foi publicada recentemente em Fan et al. (2012) . Veja esta entrada para uma discussão sobre o papel.

Comunidade
fonte
2
(+1) Por indicar o resultado correto sobre o relacionamento entre MLE e MAP e pelo aviso no último parágrafo (entre outros motivos). Para tornar esse aviso mais explícito, essa (ou qualquer outra!) Abordagem falhará miseravelmente se as estatísticas disponíveis forem auxiliares ou quase isso. Pode-se considerar o seu exemplo de brinquedo e , por exemplo. T=i(XiX¯)2
cardeal
1
+1 @procrastinator Eu ia dizer que sim, você pode usar as estatísticas suficientes, se estiverem disponíveis para o seu modelo. Mas suas extensas respostas parecem ter coberto isso.
Michael R. Chernick
Uma pergunta simples, você menciona que o uniforme anterior deve conter o MLE em seu suporte. Mas o MLE é uma variável aleatória que é limitada apenas estocástica, ou seja, pode estar fora de qualquer conjunto limitado com probabilidade positiva.
mpiktas 21/09/12
1
@mpiktas Para uma amostra específica, você deve escolher o suporte apropriado do uniforme antes. Isso pode mudar se você alterar a amostra. É importante notar que este não é um procedimento bayesiano, estamos apenas usando-o como um método numérico; portanto, não há problema em brincar com a escolha do anterior. Quanto menor o apoio do anterior, melhor. Isso aumentaria a velocidade do amostrador ABC, mas quando suas informações forem vagas, no sentido de que você não tem uma pista confiável sobre onde o MLE está localizado, poderá precisar de um suporte maior (e pagará o preço).
@mpiktas No exemplo de brinquedo, você pode usar, por exemplo, um uniforme anterior com suporte em ou um uniforme anterior com suporte em ( 0,1 , 0,15 ) obtendo os mesmos resultados, mas com taxas de aceitação extremamente diferentes. A escolha desse suporte é ad hoc e é impossível apresentar um objetivo geral antes, pois o MLE não é estocástico, como você mencionou. Essa escolha pode ser considerada como uma alavanca do método que deve ser ajustado em cada caso específico. (1000000,1000000)(0.1,0.15)
5

Tudo depende de se ou não a distribuição conjunta dos 's é conhecido. Se for, por exemplo, ( T 1 , , T k ) g ( t 1 , , t k | θ , n ) , você poderá realizar uma estimativa de probabilidade máxima com base nessa distribuição conjunta. Observe que, a menos que ( T 1 , , T k ) seja suficiente, quase sempre haverá uma probabilidade máxima diferente do que ao usar os dados brutos (Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk) . Será necessariamente menos eficiente, com uma maior variação assintótica.(X1,,Xn)

Se a distribuição conjunta acima com densidade não estiver disponível, a solução proposta pelo Procrastinator é bastante apropriada.g

Xi'an
fonte
1

O estimador de probabilidade máxima (freqüentista) é o seguinte:

F

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
,Tψ()ϕ() são contínuas duas vezes diferenciáveis.

A maneira como você realmente maximiza a probabilidade depende principalmente da possibilidade de escrever a probabilidade analiticamente de maneira tratável. Se isso for possível, você poderá considerar algoritmos gerais de otimização (newton-raphson, simplex ...). Se você não tem uma probabilidade tratável, poderá achar mais fácil calcular uma expectativa condicional como no algoritmo EM, que também produzirá estimativas de probabilidade máxima sob hipóteses bastante acessíveis.

Melhor

julien stirnemann
fonte
Para problemas em que estou interessado, a rastreabilidade analítica não é possível.
Mvctas # 8/12
O motivo da não rastreabilidade condiciona o esquema de otimização. No entanto, as extensões do EM geralmente permitem obter a maioria desses motivos. I don "t acho que posso ser mais específico nas minhas sugestões sem ver o próprio modelo
Julien Stirnemann