Estou tentando provar que a matriz de informações observada avaliada no estimador de verossimilhança máxima fraca consistentemente consistente (MLE) é um estimador fracamente consistente da matriz de informações esperada. Este é um resultado amplamente citado, mas ninguém fornece uma referência ou uma prova (acabei as 20 primeiras páginas de resultados do Google e meus livros de estatísticas)!
Usando uma sequência fracamente consistente de MLEs, posso usar a lei fraca de grandes números (WLLN) e o teorema do mapeamento contínuo para obter o resultado desejado. No entanto, acredito que o teorema do mapeamento contínuo não possa ser usado. Em vez disso, acho que a lei uniforme de grandes números (ULLN) precisa ser usada. Alguém sabe de uma referência que tenha uma prova disso? Eu tenho uma tentativa na ULLN, mas a omito por enquanto por uma questão de concisão.
Peço desculpas pela extensão desta pergunta, mas a notação precisa ser introduzida. A notação é a seguinte (minha prova está no final).
Suponha temos uma amostra iid de variáveis aleatórias { Y 1 , ... , Y N }{Y1,…,YN} com densidades de f ( ~ Y | q )f(Y~|θ) , onde q ∈ q ⊆ R kθ∈Θ⊆Rk (aqui ~ YY~ é um apenas uma variável aleatória geral com a mesma densidade como qualquer um dos membros da amostra). O vetor Y = ( Y 1 , … , Y N ) TY=(Y1,…,YN)T é o vetor de todos os vetores de amostra em que Y i∈ R nYi∈Rn para todos os i = 1 , ... , Ni=1,…,N . O verdadeiro valor do parâmetro das densidades é θ 0θ0 , e θ N ( Y ) é o estimador da probabilidade máxima fracamente coerente (MLE) de θ 0 . Sujeito a condições de regularidade, a matriz Fisher Information pode ser escrita comoθ^N(Y)θ0
I ( θ ) = - E θ [ H θ ( log f ( ˜ Y | θ ) ]
I(θ)=−Eθ[Hθ(logf(Y~|θ)]
onde H θHθ é a matriz hessiana. O equivalente da amostra é
I N ( θ ) = N ∑ i = 1 I y i ( θ ) ,
IN(θ)=∑i=1NIyi(θ),
onde I y i = - E θ [ H θ ( log f ( Y i | θ ) ]Iyi=−Eθ[Hθ(logf(Yi|θ)] . A matriz de informação é observada;
J ( θ ) = - H θ ( log f ( y | θ )J(θ)=−Hθ(logf(y|θ) ,
(algumas pessoas exigem a matriz é avaliada em θ mas alguns não). A matriz de informação observada na amostra é;θ^
J N ( θ ) = ∑ N i = 1 J y i ( θ )JN(θ)=∑Ni=1Jyi(θ)
onde J y i ( θ ) = - H θ ( log f ( y i | θ )Jyi(θ)=−Hθ(logf(yi|θ) .
Eu pode provar convergência na probabilidade do estimador N - 1 J N ( θ )N−1JN(θ) a I ( θ )I(θ) , mas não de N - 1 J N ( θ N ( Y ) )N−1JN(θ^N(Y)) a I ( θ 0 )I(θ0) . Aqui está a minha prova até agora;
Agora ( J N ( θ ) ) r s = - ∑ N i = 1 ( H θ ( log f ( Y i | θ ) ) r s(JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs é elemento ( r , s )(r,s) de J N ( θ )JN(θ) , para qualquer r , s = 1 , … , kr,s=1,…,k. Se a amostra é iid, em seguida, pela lei fraco de grandes números (WLLN), a média destas summands converge em probabilidade para - E θ [ ( H θ ( log f ( Y 1 | θ ) ) R s ] = ( I Y 1 ( θ ) ) r s = ( I ( θ ) ) r s−Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs Assim, N - 1 ( J N ( θ )) r s P → ( I ( θ ) ) r sN−1(JN(θ))rs→P(I(θ))rs para todos os r , s = 1 , … , kr,s=1,…,k , e assim N - 1 J N ( θ ) P → I ( θ )N−1JN(θ)→PI(θ) . Infelizmente, não é possível simplesmente concluir N - 1 J N ( θ N ( Y ) ) P → I ( θ0)N−1JN(θ^N(Y))→PI(θ0) by using the continuous mapping theorem since N−1JN(⋅)N−1JN(⋅) is not the same function as I(⋅)I(⋅).
Any help on this would be greatly appreciated.
Respostas:
I guess directly establishing some sort of uniform law of large numbers is one possible approach.
Here is another.
We want to show that JN(θMLE)NP⟶I(θ∗)JN(θMLE)N⟶PI(θ∗) .
(As you said, we have by the WLLN that JN(θ)NP⟶I(θ)JN(θ)N⟶PI(θ) . But this doesn't directly help us.)
One possible strategy is to show that |I(θ∗)−JN(θ∗)N|P⟶0.
and
|JN(θMLE)N−JN(θ∗)N|P⟶0
If both of the results are true, then we can combine them to get |I(θ∗)−JN(θMLE)N|P⟶0,
which is exactly what we want to show.
The first equation follows from the weak law of large numbers.
The second almost follows from the continuous mapping theorem, but unfortunately our function g()g() that we want to apply the CMT to changes with NN :
our gg is really gN(θ):=JN(θ)NgN(θ):=JN(θ)N . So we
cannot use the CMT.
(Comment: If you examine the proof of the CMT on Wikipedia, notice that the set BδBδ they define in their proof for us now
also depends on nn . We essentially need some sort of equicontinuity at θ∗θ∗
over our functions gN(θ)gN(θ) .)
Fortunately, if you assume that the family G={gN|N=1,2,…}G={gN|N=1,2,…}
is stochastically equicontinuous at θ∗θ∗ , then it immediately
follows that for θMLEP⟶θ∗θMLE⟶Pθ∗ ,
|gn(θMLE)−gn(θ∗)|P⟶0.
(See here: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf for a definition of stochastic equicontinuity at θ∗θ∗ , and a proof of the above fact.)
Therefore, assuming that GG is SE at θ∗θ∗ , your desired result holds
true and the empirical Fisher information converges to the population Fisher information.
Now, the key question of course is, what sort of conditions do you need to impose on GG to get SE?
It looks like one way to do this is to establish a Lipshitz condition
on the entire class of functions GG (see here: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic-equicontinuity.original.pdf ).
fonte
The answer above using stochastic equicontinuity works very well, but here I am answering my own question by using a uniform law of large numbers to show that the observed information matrix is a strongly consistent estimator of the information matrix , i.e. N−1JN(ˆθN(Y))a.s.⟶I(θ0)N−1JN(θ^N(Y))⟶a.s.I(θ0) if we plug-in a strongly consistent sequence of estimators. I hope it is correct in all details.
We will use IN={1,2,...,N}IN={1,2,...,N} to be an index set, and let us temporarily adopt the notation J(˜Y,θ):=J(θ)J(Y~,θ):=J(θ) in order to be explicit about the dependence of J(θ)J(θ) on the random vector ˜YY~ . We shall also work elementwise with (J(˜Y,θ))rs(J(Y~,θ))rs and (JN(θ))rs=∑Ni=1(J(Yi,θ))rs(JN(θ))rs=∑Ni=1(J(Yi,θ))rs , r,s=1,...,kr,s=1,...,k , for this discussion. The function (J(⋅,θ))rs(J(⋅,θ))rs is real-valued on the set Rn×Θ∘Rn×Θ∘ , and we will suppose that it is Lebesgue measurable for every θ∈Θ∘θ∈Θ∘ . A uniform (strong) law of large numbers defines a set of conditions under which
supθ∈Θ|N−1(JN(θ))rs−Eθ[(J(Y1,θ))rs]|=supθ∈Θ|N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs|a.s⟶0(1)supθ∈Θ∣∣N−1(JN(θ))rs−Eθ[(J(Y1,θ))rs]∣∣=supθ∈Θ∣∣N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs∣∣⟶a.s0(1)
The conditions that must be satisfied in order that (1) holds are (a) Θ∘Θ∘ is a compact set; (b) (J(˜Y,θ))rs(J(Y~,θ))rs is a continuous function on Θ∘Θ∘ with probability 1; (c) for each θ∈Θ∘θ∈Θ∘ (J(˜Y,θ))rs(J(Y~,θ))rs is dominated by a function h(˜Y)h(Y~) , i.e. |(J(˜Y,θ))rs|<h(˜Y)|(J(Y~,θ))rs|<h(Y~) ; and
(d) for each θ∈Θ∘θ∈Θ∘ Eθ[h(˜Y)]<∞Eθ[h(Y~)]<∞ ;. These conditions come from Jennrich (1969, Theorem 2).
Now for any yi∈Rnyi∈Rn , i∈INi∈IN and θ′∈S⊆Θ∘, the following inequality obviously holds
|N−1∑Ni=1(J(yi,θ′))rs−(I(θ′))rs|≤supθ∈S|N−1∑Ni=1(J(yi,θ))rs−(I(θ))rs|.(2)
Suppose that {ˆθN(Y)} is a strongly consistent sequence of estimators for θ0, and let ΘN1=BδN1(θ0)⊆K⊆Θ∘ be an open ball in Rk with radius δN1→0 as N1→∞, and suppose K is compact. Then since ˆθN(Y)∈ΘN1 for N sufficiently large enough we have P[limN{ˆθN(Y)∈ΘN1}]=1 for sufficiently large N. Together with (2) this implies
P[limN→∞{|N−1∑Ni=1(J(Yi,ˆθN(Y)))rs−(I(ˆθN(Y)))rs|≤supθ∈ΘN1|N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs|}]=1.(3)
Now ΘN1⊆Θ∘ implies conditions (a)-(d) of Jennrich (1969, Theorem 2) apply to ΘN1. Thus (1) and (3) imply
P[limN→∞{|N−1∑Ni=1(J(Yi,ˆθN(Y)))rs−(I(ˆθN(Y)))rs|=0}]=1.(4)
Since (I(ˆθN(Y)))rsa.s.⟶I(θ0) then (4) implies that N−1(JN(ˆθN(Y)))rsa.s.⟶(I(θ0))rs. Note that (3) holds however small ΘN1 is, and so the result in (4) is independent of the choice of N1 other than N1 must be chosen such that ΘN1⊆Θ∘. This result holds for all r,s=1,...,k, and so in terms of matrices we have N−1JN(ˆθN(Y))a.s.⟶I(θ0).
fonte