Equivalência entre mínimos quadrados e MLE no modelo gaussiano

26

Eu sou novo no Machine Learning e estou tentando aprender sozinho. Recentemente, eu estava lendo algumas notas de aula e tinha uma pergunta básica.

O slide 13 diz que "a estimativa de mínimos quadrados é igual à estimativa de máxima verossimilhança em um modelo gaussiano". Parece que é algo simples, mas não consigo ver isso. Alguém pode explicar o que está acontecendo aqui? Estou interessado em ver a matemática.

Mais tarde tentarei ver também o ponto de vista probabilístico da regressão de Ridge e Lasso; portanto, se houver alguma sugestão que me ajude, isso também será muito apreciado.

Andy
fonte
4
A função objetivo na parte inferior de p. 13 é apenas um múltiplo constante ( ) da função objetivo na parte inferior de p. 10. O MLE minimiza o primeiro, enquanto os mínimos quadrados minimizam o último, QED. n
whuber
@ whuber: Obrigado pela sua resposta. Bem, o que eu queria saber é como o MLE está fazendo a minimização.
Andy
Você quer dizer mecânica ou conceitualmente?
whuber
@ whuber: Ambos! Se eu pudesse ver a matemática, isso também ajudaria.
Andy
11
O link está quebrado; a falta de uma referência completa e mais contexto para a cotação dificulta apenas remover a referência ou localizar uma fonte alternativa para ela. O slide 13 deste link é suficiente? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Reinstate Monica

Respostas:

29

No modelo

Y=Xβ+ϵ

onde , o loglikelihood de Y | X para uma amostra de n indivíduos é (até uma constante aditiva)ϵN(0 0,σ2)Y|Xn

-n2registro(σ2)-1 12σ2Eu=1 1n(yEu-xEuβ)2

visto como uma função de apenas , o maximizador é exatamente o que minimizaβ

Eu=1 1n(yEu-xEuβ)2

isso torna clara a equivalência?

Macro
fonte
Este é precisamente o que está nas lâminas que se refere o OP
whuber
3
Sim, eu vejo isso, mas eles na verdade não escrevem a probabilidade gaussiana de log na página 13 que, depois de fazer isso, torna óbvio que seu argmax é o mesmo que o argmin dos critérios do OLS, então achei que essa era uma adição interessante.
Macro
bom ponto: o slide é um pouco superficial com os detalhes.
whuber
7
βeu2
11
A constante aditiva én/2 log(2 *pi)
SmallChess