Estimadores de máxima verossimilhança - Gaussiano multivariado

20

Contexto

O gaussiano multivariado aparece frequentemente no Machine Learning e os seguintes resultados são usados ​​em muitos livros e cursos de ML sem as derivações.

Dados os dados na forma de uma matriz de dimensões , se assumirmos que os dados seguem uma distribuição gaussiana variável com os parâmetros mean ( ) e matriz de covariância ( ) os estimadores de máxima verossimilhança são dados por:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Entendo que o conhecimento do gaussiano multivariado é um pré-requisito para muitos cursos de ML, mas seria útil ter a derivação completa de uma resposta independente de uma vez por todas, pois sinto que muitos aprendizes estão refletindo nas estatísticas. Os sites stackexchange e math.stackexchange procuram respostas.


Questão

Qual é a derivação completa dos Estimadores de Máxima Verossimilhança para o Gaussiano multivariado


Exemplos:

Essas notas de aula (página 11) sobre Análise Discriminante Linear, ou essas, fazem uso dos resultados e assumem conhecimentos prévios.

Existem também algumas postagens parcialmente respondidas ou fechadas:

Xavier Bourret Sicotte
fonte

Respostas:

24

Derivando os estimadores de máxima verossimilhança

Suponha que temos vetores aleatórios, cada um com tamanho : onde cada vetor aleatório pode ser interpretado como uma observação (ponto de dados) nas variáveis . Se cada for considerado como vetores gaussianos multivariados:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Onde os parâmetros são desconhecidos. Para obter sua estimativa, podemos usar o método da máxima verossimilhança e maximizar a função de verossimilhança de log.μ,Σ

Observe que, pela independência dos vetores aleatórios, a densidade conjunta dos dados é o produto das densidades individuais , ou seja, . Tomar o logaritmo fornece a função de probabilidade de logΠ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Derivandoμ^

Para pegar a derivada em relação a e igual a zero, usaremos a seguinte identidade de cálculo da matriz:μ

wTAww=2Aw se não depende de e é simétrico.wAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Geralmente chamado de vetor médio da amostra .

DerivandoΣ^

A derivação do MLE para a matriz de covariância requer mais trabalho e o uso das seguintes propriedades de álgebra linear e cálculo:

  • O traço é invariável sob permutações cíclicas de produtos da matriz:tr[ACB]=tr[CAB]=tr[BCA]
  • Como é escalar, podemos pegar seu traço e obter o mesmo valor:xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

A combinação dessas propriedades nos permite calcular

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Qual é o produto externo do vetor consigo mesmo.x

Agora podemos reescrever a função de probabilidade de log e calcular a derivada wrt (a nota é constante)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Igualando a zero e resolvendoΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Fontes

Xavier Bourret Sicotte
fonte
Provas alternativas, formas mais compactas ou interpretação intuitiva são bem-vindas!
Xavier Bourret Sicotte
Na derivação para , por que precisa ser definido positivamente? Parece suficiente que seja invertível? Para uma matriz invertível , somente quando ? μΣΣAAx=0x=0
Tom Bennett
Para esclarecer, é uma matriz que pode ter componentes diagonais e não diagonais finitos indicando correlação entre vetores, correto? Se for esse o caso, em que sentido esses vetores são independentes? Além disso, por que a função de probabilidade conjunta é igual à probabilidade? A densidade da junta, , não deve ser igual à probabilidade multiplicada pelo anterior, ou seja, ? Σm×mf(x,y)f(x|y)f(y)
Mathews24 25/04
1
@ TomBennett, a matriz sigma é definida positivamente por definição - consulte stats.stackexchange.com/questions/52976/… para obter a prova. A identidade do cálculo da matriz requer que a matriz seja simétrica, não definida positivamente. Mas como matrizes definidas positivas são sempre simétricas e funcionam
Xavier Bourret Sicotte
1
Sim, de fato - a independência entre as observações permite obter a probabilidade - a redação pode não ser clara o suficiente - essa é a versão multivariada da probabilidade. O prior ainda é irrelevante, independentemente
Xavier Bourret Sicotte
5

Uma prova alternativa para que leva a derivada em relação a diretamente:Σ^Σ

à probabilidade de log como acima: que e usamos as propriedades cíclicas e lineares de . Para calcular , primeiro observamos que

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
pela quarta propriedade acima. Para obter a derivada do segundo termo, precisaremos da propriedade que (do livro de receitas Matrix , equação 63). Aplicando isso com , obtemos que porque e são simétricos. Então
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Definir isso como 0 e reorganizar fornece
Σ^=1mSμ.

Essa abordagem é mais trabalhosa que a padrão usando derivadas com relação a e requer uma identidade de rastreamento mais complicada. Eu só achei útil porque atualmente preciso derivar uma função de probabilidade modificada para a qual parece muito mais difícil usar que .Λ=Σ1/Σ1/Σ

Eric Kightley
fonte