Como encontrar estimativas de probabilidade máxima de um parâmetro inteiro?

7

HW Pergunta :

x1,x2,,xn são variáveis ​​gaussianas independentes com média e variância . Defina que é desconhecido. Estamos interessados ​​na estimação de partir de .μσ2y=n=1NxnNNy

uma. Dado determine seu viés e variação.N^1=y/μ

b. Dado determine seu viés e variância.N^2=y2/σ2

Ignorando o requisito de ser um número inteiroN

c. Existe um estimador eficiente (observe e )?μ=0μ0

d. Encontre a estimativa de probabilidade máxima de partir de .Ny

e Encontre CRLB de partir de .Ny

f. O erro quadrático médio dos estimadores atinge CRLB quando ?N^1,N^2N

insira a descrição da imagem aqui

Se alguém pudesse me direcionar para a solução do seguinte problema, seria ótimo.

Obrigado,

Nadav

Nadav Talmon
fonte
Qual é a distribuição deY=iXi?
BruceET
Isso não diz. Suponho que também será distribuído como Gaussian variável já que é uma soma de variáveis Gaussian
Nadav Talmon
11
Se for normal, então e são normais. O que são a média e a variação de Isso deve terminar o problema. // Na prática, suponho que faça sentido arredondar para um número inteiro. Isso pode fazer uma pequena diferença na média e variância. Você pode descobrir quanta diferença por simulação. XiY=IXiN^=Y/μN^?N^
BruceET
O não será o ? Mesma lógica para a médiaVar(Nestimated)Var(y)/μ
Nadav Talmon
2
Como é integral, você não pode (diretamente) usar Cálculo para encontrar o mínimo. Se esse é seu obstáculo, apresente seu trabalho na sua pergunta para que possamos nos concentrar em onde você realmente precisa de ajuda. N
whuber

Respostas:

11

Você começou bem escrevendo uma expressão para a probabilidade. É mais simples reconhecer que sendo a soma das variáveis independentes normais , tem uma distribuição Normal com média e variância onde sua probabilidade éY,N(μ,σ2)NμNσ2,

L(y,N)=12πNσ2exp((yNμ)22Nσ2).

Vamos trabalhar com seu logaritmo negativo cujos mínimos correspondem aos máximos da probabilidade:Λ=logL,

2Λ(N)=log(2π)+log(σ2)+log(N)+(yNμ)2Nσ2.

Precisamos encontrar todos os números inteiros que minimizem essa expressão. Finja por um momento que pode ser qualquer número real positivo. Como tal, é uma função continuamente diferenciável de com derivadaN2ΛN

ddN2Λ(N)=1N(yNμ)2σ2N22μ(yNμ)Nσ2.

Equacione isso a zero para procurar pontos críticos, limpe os denominadores e faça um pouco de álgebra para simplificar o resultado, fornecendo

(1)μ2N2+σ2Ny2=0

com uma solução positiva única (quando )μ0

N^=12μ2(σ2+σ4+4μ2y2).

É simples verificar se, à medida que aproxima de ou cresce, cresce, então sabemos que não há um mínimo global próximo de nem próximo de Isso deixa apenas o ponto crítico que encontramos, que, portanto, deve ser o mínimo global. Além disso, deve diminuir à medida que é abordado de baixo ou de cima. Portanto,N02Λ(N)N0N.2ΛN^

Os mínimos globais de devem estar entre os dois números inteiros em ambos os lados deΛN^.

Isso fornece um procedimento eficaz para encontrar o estimador de Máxima Verossimilhança: é o piso ou o teto de (ou, ocasionalmente, os dois !), Então calcule e simplesmente escolha qual desses números inteiros gera menor.N^N^2Λ

Vamos fazer uma pausa para verificar se esse resultado faz sentido. Em duas situações, há uma solução intuitiva:

  1. Quando é muito maior que , estará próximo de onde uma estimativa decente de seria simplesmente Nesses casos, podemos aproximar o MLE negligenciando dando (conforme o esperado)μσYμ,N|Y/μ|.σ2,

    N^=12μ2(σ2+σ4+4μ2y2)12μ24μ2y2=|yμ|.

  2. Quando é muito maior que pode se espalhar por todo o lugar, mas, em média, deve estar próximo de onde uma estimativa intuitiva de seria simplesmente De fato, negligenciar na equação fornece a solução esperadaσμ, Y Y2σ2,Ny2/σ2.μ(1)

    N^y2σ2.

Nos dois casos, o MLE está de acordo com a intuição, indicando que provavelmente o resolvemos corretamente. As situações interessantes , então, ocorrem quando e são de tamanhos comparáveis. A intuição pode ser de pouca ajuda aqui.μσ


Para explorar isso ainda mais, simulei três situações em que é ou Não importa o que seja (desde que não seja zero), Em cada situação um aleatório para os casos fazendo isso independentemente cinco mil vezes.σ/μ1/3, 1,3.μμ=1.YN=2,4,8,16,

Estes histogramas resumir os mleS de . As linhas verticais marcam os verdadeiros valores de .NN

Figura

Em média, o MLE parece estar quase certo. Quando é relativamente pequeno, o MLE tende a ser preciso: é o que indicam os histogramas estreitos na linha superior. Quando o MLE é bastante incerto. Quando o MLE geralmente pode ser e algumas vezes pode ser várias vezes (especialmente quando é pequeno). Essas observações estão de acordo com o que foi previsto na análise intuitiva anterior.σσ|μ|,σ|μ|,N^=1NN


A chave para a simulação é implementar o MLE. Requer a resolução e a avaliação de para determinados valores de e A única nova idéia refletida aqui é verificar os números inteiros em ambos os lados de As duas últimas linhas da função realizam esse cálculo, com a ajuda de avaliar a probabilidade do log.(1)ΛY, μ,σ.N^.flambda

lambda <- Vectorize(function(y, N, mu, sigma) {
  (log(N) + (y-mu*N)^2 / (N * sigma^2))/2
}, "N") # The negative log likelihood (without additive constant terms)

f <- function(y, mu, sigma) {
  if (mu==0) {
    N.hat <- y^2 / sigma^2
  } else {
    N.hat <- (sqrt(sigma^4 + 4*mu^2*y^2) - sigma^2) / (2*mu^2)
  }
  N.hat <- c(floor(N.hat), ceiling(N.hat))
  q <- lambda(y, N.hat, mu, sigma)
  N.hat[which.min(q)]
} # The ML estimator
whuber
fonte
11
Eu não poderia ter pedido uma explicação melhor. Muito obrigado, você literalmente cobriu tudo!
Nadav Talmon
agora eu preciso dizer se existe um estimador eficiente (para e ). Eu sei que se um estimador é imparcial e responde ao CRLB, ele é eficiente. Eu sei que é imparcial, mas tomar a segunda derivada da função L parece não me levar aonde. μ!=0μ=0
Nadav Talmon
Ignore o fato de que é integral: ou seja, permita que a estimativa seja o mínimo global da função de probabilidade de log negativo. Continue a partir daí. N
whuber
Peguei a derivada da função de probabilidade de log negativo, como você sugeriu e tentei obter a seguinte expressão: Consegui fazer isso em mas não em é por isso que tivemos uma solução positiva única em ? C(N)×(g(y)N)μ=0μ!=0μ!=0
Nadav Talmon
Acho que não. Acho mais fácil reparametrizar o problema em termos de porque a derivada da probabilidade logarítmica é uma função quadrática deθ=1/N,θ.
whuber
5

O método que whuber usou em sua excelente resposta é um "truque" comum de otimização que envolve estender a função de probabilidade para permitir valores reais de e, em seguida, usar a concavidade da probabilidade de log para mostrar que o valor discreto de maximização é um dos fatores. valores discretos em ambos os lados de um ótimo contínuo. Esse é um método comumente usado em problemas discretos de MLE que envolvem uma função de verossimilhança côncava. Seu valor reside no fato de que geralmente é possível obter uma expressão simples de forma fechada para os ótimos contínuos.N

Para completar, nesta resposta, mostrarei um método alternativo, que usa cálculo discreto usando o operador de diferença para a frente . A função de probabilidade de log para esse problema é a função discreta:

y(N)=12[ln(2π)+ln(σ2)+ln(N)+(yNμ)2Nσ2]for NN.

A primeira diferença para a frente da probabilidade de log é:

Δy(N)=12[ln(N+1)ln(N)+(yNμμ)2(N+1)σ2(yNμ)2Nσ2]=12[ln(N+1N)+N(yNμμ)2(N+1)(yNμ)2N(N+1)σ2]=12[ln(N+1N)+[N(yNμ)22N(yNμ)μ+Nμ2][N(yNμ)2+(yNμ)2]N(N+1)σ2]=12[ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2].

Com um pouco de álgebra, a segunda diferença de avanço pode ser mostrada como:

Δ2y(N)=12[ln(N+2N)+2N(N+1)μ2+2(y+Nμ)(yNμ)N(N+1)(N+2)σ2]<0.

Isso mostra que a função log-verossimilhança é côncava, portanto, seu menor ponto de maximização N^ será:

N^=min{NN|Δy(N)0}=min{NN|ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2}.

(O próximo valor também será um ponto de maximização se e somente se Δy(N^)=0.) O MLE (o menor ou o conjunto inteiro) pode ser programado como uma função por meio de um whileloop simples , e isso deve ser capaz de fornecer a solução rapidamente. Vou deixar a parte de programação como um exercício.

Ben - Restabelecer Monica
fonte
Agradeço o seu tempo e a explicação completa. Obrigado @Ben!
Nadav Talmon
1

Comentário: Aqui está uma breve simulação em R paraμ=50,σ=3, que deve ser preciso em 2 ou três lugares, aproximando a média e o DP de Y. Você deve conseguir encontrar E(Y) e Var(Y) por métodos analíticos elementares, conforme indicado no meu comentário anterior. Se tivéssemosN=100 então E(N^) parece imparcial para N.

N = 100;  mu = 50;  sg = 3
y = replicate( 10^6, sum(rnorm(N, mu, sg))/mu )
mean(y);  sd(y)
[1] 99.99997
[1] 0.6001208
N.est = round(y);  mean(N.est);  sd(N.est)
[1] 99.9998
[1] 0.6649131
BruceET
fonte
Obrigado Bruce!
Nadav Talmon
Posso fazer mais uma pergunta? Agora me perguntam se existe um estimador eficiente em relação ao que encontrei, e também afirma que agora ignoramos o requisito de N ser um número inteiro. o que significa que não é mais um número inteiro? como eu encontraria a probabilidade de log para esse caso?
Nadav Talmon
11
Se você deseja entender o potencial de viés, não use grandes N: tente um valor pequeno. N=1é especialmente interessante :-). É o casoμ=0.
whuber