Relação entre MLE e mínimos quadrados em caso de regressão linear

9

Hastie e Tibshirani mencionam na seção 4.3.2 do livro que, na configuração de regressão linear, a abordagem dos mínimos quadrados é de fato um caso especial de máxima probabilidade. Como podemos provar esse resultado?

PS: Não poupe detalhes matemáticos.

Pradnyesh Joshi
fonte
2
Não é um caso especial: eles são idênticos quando a distribuição de erros é normal.
Zhanxiong

Respostas:

13

O modelo de regressão linear

£ ~ N ( 0 , I σ 2 )Y=Xβ+ϵ , ondeϵN(0,Iσ2)

X R n × p β R pYRn , eXRn×pβRp

Observe que o erro do nosso modelo (residual) é . Nosso objetivo é encontrar um vetor de s que minimize a norma ao quadrado desse erro. p L 2ϵ=YXββL2

Mínimos Quadrados

Dados os dados que cada é dimensional, buscamos encontrar:x i p(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Máxima verossimilhança

Usando o modelo acima, podemos configurar a probabilidade dos dados, considerando os parâmetros como:β

L(Y|X,β)=i=1nf(yi|xi,β)

onde é o pdf de uma distribuição normal com média 0 e variância . Conectando-o:σ 2f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Agora, geralmente, ao lidar com as probabilidades, é matematicamente mais fácil fazer o registro antes de continuar (os produtos se tornam somas, os exponenciais desaparecem), então vamos fazer isso.

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Como queremos a estimativa da máxima probabilidade, queremos encontrar o máximo da equação acima, com relação a . O primeiro termo não afeta nossa estimativa de , para que possamos ignorá-la:ββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

Observe que o denominador é uma constante em relação a . Por fim, observe que há um sinal negativo na frente da soma. Portanto, encontrar o máximo de um número negativo é como encontrar o mínimo sem o negativo. Em outras palavras:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

Lembre-se de que, para que isso funcionasse, tivemos que fazer certas suposições do modelo (normalidade dos termos de erro, 0 média, variação constante). Isso torna o mínimo de quadrados equivalente ao MLE sob certas condições. Veja aqui e aqui para mais discussões.

Para completar, observe que a solução pode ser escrita como:

β=(XTX)1XTy
ilanman
fonte