Derivando os estimadores de máxima verossimilhança
Suponha que temos vetores aleatórios, cada um com tamanho : onde cada vetor aleatório pode ser interpretado como uma observação (ponto de dados) nas variáveis . Se cada for considerado como vetores gaussianos multivariados:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Onde os parâmetros são desconhecidos. Para obter sua estimativa, podemos usar o método da máxima verossimilhança e maximizar a função de verossimilhança de log.μ,Σ
Observe que, pela independência dos vetores aleatórios, a densidade conjunta dos dados é o produto das densidades individuais , ou seja, . Tomar o logaritmo fornece a função de probabilidade de logΠ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Derivandoμ^
Para pegar a derivada em relação a e igual a zero, usaremos a seguinte identidade de cálculo da matriz:μ
∂wTAw∂w=2Aw se
não depende de e é simétrico.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Geralmente chamado de vetor médio da amostra .
DerivandoΣ^
A derivação do MLE para a matriz de covariância requer mais trabalho e o uso das seguintes propriedades de álgebra linear e cálculo:
- O traço é invariável sob permutações cíclicas de produtos da matriz:tr[ACB]=tr[CAB]=tr[BCA]
- Como é escalar, podemos pegar seu traço e obter o mesmo valor:xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
A combinação dessas propriedades nos permite calcular
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Qual é o produto externo do vetor consigo mesmo.x
Agora podemos reescrever a função de probabilidade de log e calcular a derivada wrt (a nota é constante)Σ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Igualando a zero e resolvendoΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Fontes
Uma prova alternativa para que leva a derivada em relação a diretamente:Σˆ Σ
à probabilidade de log como acima: que e usamos as propriedades cíclicas e lineares de . Para calcular , primeiro observamos queℓ(μ,Σ)===C−m2log|Σ|−12∑i=1mtr[(x(i)−μ)TΣ−1(x(i)−μ)]C−12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1]) Sμ=∑mi=1(x(i)−μ)(x(i)−μ)T tr ∂ℓ/∂Σ ∂∂Σlog|Σ|=Σ−T=Σ−1
pela quarta propriedade acima. Para obter a derivada do segundo termo, precisaremos da propriedade que
(do livro de receitas Matrix , equação 63). Aplicando isso com , obtemos que
porque e são simétricos. Então
∂∂Xtr(AX−1B)=−(X−1BAX−1)T. B=I ∂∂Σtr[SμΣ−1]=−(Σ−1SμΣ−1)T=−Σ−1SμΣ−1 Σ Sμ ∂∂Σℓ(μ,Σ)∝mΣ−1−Σ−1SμΣ−1.
Definir isso como 0 e reorganizar fornece
Σˆ=1mSμ.
Essa abordagem é mais trabalhosa que a padrão usando derivadas com relação a e requer uma identidade de rastreamento mais complicada. Eu só achei útil porque atualmente preciso derivar uma função de probabilidade modificada para a qual parece muito mais difícil usar que .Λ=Σ−1 ∂/∂Σ−1 ∂/∂Σ
fonte