Você pode dar uma explicação intuitiva simples do método IRLS para encontrar o MLE de um GLM?

12

Fundo:

Estou tentando seguir a revisão de Princeton sobre a estimativa de MLE para GLM .

I compreender os conceitos básicos de estimativa MLE: likelihood, score, observado e esperado Fisher informationea Fisher scoringtécnica. E eu sei como justificar a regressão linear simples com a estimativa do MLE .


A questão:

Não consigo entender nem a primeira linha desse método :(

Qual é a intuição por trás da zi variáveis de trabalho definido como:

zi=η^i+(yiμ^i)dηidμi

Por que eles são usados ​​em vez de yi para estimar β ?

E qual é a relação deles com a response/link functionqual é a conexão entre η e μ

Se alguém tiver uma explicação simples ou puder me direcionar para um texto de nível mais básico sobre isso, ficaria grato.

ihadanny
fonte
1
Como uma observação lateral, para mim eu aprendi sobre o IRLS no contexto de uma estimativa robusta (M-) antes de ouvir sobre toda a estrutura "GLM" (que ainda não entendo completamente). Para uma perspectiva prática sobre essa abordagem, como uma simples generalização dos mínimos quadrados, eu recomendaria a fonte que encontrei pela primeira vez: Apêndice B do livro Computer Vision (Richard Ezel) de Richard Szeliski (E- gratuito) (as 4 primeiras páginas, na verdade, embora essas ligações para alguns bons exemplos também).
GeoMatt22 26/10/16

Respostas:

15

Alguns anos atrás, escrevi um artigo sobre isso para meus alunos (em espanhol), para tentar reescrever essas explicações aqui. Examinarei o IRLS (mínimos quadrados ponderados iterativamente) através de uma série de exemplos de crescente complexidade. Para o primeiro exemplo, precisamos do conceito de uma família em escala de localização. Seja f0 0 uma função de densidade centrada em zero em algum sentido. Podemos construir uma família de densidades definindo

f(x)=f(x;μ,σ)=1σf0 0(x-μσ)
ondeσ>0 0é um parâmetro de escala eμé um parâmetro de localização. No modelo de erro de medição, onde normalmente o termo de erro é modelado como uma distribuição normal, podemos no lugar dessa distribuição normal usar uma família de escala de localização, conforme construído acima. Quandof0 0é a distribuição normal padrão, a construção acima fornece a famíliaN(μ,σ).

Agora vamos usar o IRLS em alguns exemplos simples. Primeiro, vamos encontrar os estimadores de ML (máxima verossimilhança) no modelo com a densidade f ( y ) = 1

Y1,Y2,...,Yniid
a distribuição de Cauchy a família localização μ (de modo que este é um local família). Mas primeiro alguma notação. O estimador de mínimos quadrados ponderados de μ é dado por μ = n i = 1 w i y i
f(y)=1π11+(y-μ)2,yR,
μμ Ondewié alguns pesos. Vamos ver que o estimador de MLμpode ser expressa sob a mesma forma, com awialguma função dos resíduos £i=yi - μ . A função de verossimilhança é dada por L(y;μ)=(1
μ=Eu=1nWEuyEuEu=1nWEu.
WEuμWEu
ϵEu=yEu-μ^.
e a função de probabilidade de logaritmo é dada por l(y)=-nlog(π)- n i=1log(1+(yi-μ)2). Sua derivada em relação aμé l ( y )
eu(y;μ)=(1π)nEu=1n11+(yEu-μ)2
eu(y)=-nregistro(π)-Eu=1nregistro(1+(yEu-μ)2).
μ onde ϵi=yi-μ. Escrevaf0(ϵ)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμ ef ' 0 (ε)=1f0(ϵ)=1π11+ϵ2 , obtemos f0 (ϵ)f0(ϵ)=1π12ϵ(1+ϵ2)2 Encontramos l ( y )
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
em que foi utilizada a definição wi= f ' 0 ( ε i )
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Remembering that ϵi=yiμ we obtain the equation
WEuyEu=μWEu,
que é a equação de estimativa do IRLS. Observe que
  1. Os pesos WEu são sempre positivos.
  2. Se o resíduo for grande, atribuímos menos peso à observação correspondente.

Para calcular o estimador de ML na prática, precisamos de um valor inicial μ^(0 0), poderíamos usar a mediana, por exemplo. Usando esse valor, calculamos resíduos

ϵEu(0 0)=yEu-μ^(0 0)
e pesos
WEu(0 0)=21+ϵEu(0 0).
O novo valor de μ^ É dado por
μ^(1)=WEu(0 0)yEuWEu(0 0).
Continuando dessa maneira, definimos
ϵEu(j)=yEu-μ^(j)
e
WEu(j)=21+ϵEu(j).
O valor estimado no passe j+1 do algoritmo se torna
μ^(j+1)=WEu(j)yEuWEu(j).
Continuando até a sequência
μ^(0 0),μ^(1),...,μ^(j),...
converge.

Agora estudamos esse processo com uma localização mais geral e uma família de escalas, f(y)=1σf0 0(y-μσ), com menos detalhes. DeixeiY1,Y2,...,Ynseja independente da densidade acima. Definir tambémϵEu=yEu-μσ. A função loglikelihood é

eu(y)=-n2registro(σ2)+registro(f0 0(yEu-μσ)).
Escrevendo ν=σ2, Observe que
ϵEuμ=-1σ
e
ϵEuν=(yEu-μ)(1ν)=(yEu-μ)-12σ3.
Cálculo da derivada de probabilidade de log
eu(y)μ=f0 0(ϵEu)f0 0(ϵEu)ϵEuμ=f0 0(ϵEu)f0 0(ϵEu)(-1σ)=-1σfo(ϵEu)f0 0(ϵEu)(-1ϵEu)(-ϵEu)=1σWEuϵEu
e igualar esse valor a zero fornece a mesma equação de estimativa do primeiro exemplo. Em seguida, procure um estimador paraσ2:
eu(y)ν=-n21ν+f0 0(ϵEu)f0 0(ϵEu)ϵEuν=-n21ν+f0 0(ϵEu)f0 0(ϵEu)(-(yEu-μ)2σ3)=-n21ν-121σ2f0 0(ϵEu)f0 0(ϵEu)ϵEu=-n21ν-121νf0 0(ϵEu)f0 0(ϵEu)(-1ϵEu)(-ϵEu)ϵEu=-n21ν+121νWEuϵEu2=!0
levando ao estimador
σ2^=1nWEu(yEu-μ^)2.
O algoritmo iterativo acima também pode ser usado neste caso.

A seguir, apresentamos um exame numérico usando R, para o modelo exponencial duplo (com escala conhecida) e com dados y <- c(-5,-1,0,1,5). Para esses dados, o valor verdadeiro do estimador de ML é 0. O valor inicial será mu <- 0.5. Uma passagem do algoritmo é

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

Com esta função, você pode experimentar fazer as iterações "manualmente". Em seguida, o algoritmo iterativo pode ser feito por

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Exercício: Se o modelo é um tk distribuição com parâmetro de escala σ mostre que as iterações são dadas pelo peso

WEu=k+1k+ϵEu2.
Exercício: Se a densidade for logística, mostre que os pesos são dados por
W(ϵ)=1-eϵ1+eϵ-1ϵ.

Por enquanto, deixarei aqui, continuarei este post.

kjetil b halvorsen
fonte
uau, ótima introdução gentil! mas você está sempre se referindo a um único parâmetrovocê para todas as instâncias e as fontes que citei falam de um diferente vocêEupor exemplo. isso é apenas uma modificação trivial?
Ihadanny
1
Vou acrescentar mais, agora sem tempo! As idéias permanecem as mesmas, mas os detalhes se envolvem mais.
Kjetil b halvorsen
2
chegará a isso!
Kjetil b halvorsen
1
E obrigado pelo exercício que mostra os pesos para a densidade logística. Fiz e aprendi muito durante o processo. Eu não conheço otkdistribuição, não consegui encontrar nada sobre isso ...
ihadanny
2
você se importa de escrever um post em algum lugar continuando esta explicação? realmente útil para mim e eu tenho certeza que vai ser para os outros ...
ihadanny