Hastie e Tibshirani mencionam na seção 4.3.2 do livro que, na configuração de regressão linear, a abordagem dos mínimos quadrados é de fato um caso especial de máxima probabilidade. Como podemos provar esse resultado?
PS: Não poupe detalhes matemáticos.
regression
maximum-likelihood
least-squares
Pradnyesh Joshi
fonte
fonte
Respostas:
O modelo de regressão linear
£ ~ N ( 0 , I σ 2 )Y= Xβ+ ϵ , ondeε ~ N( 0 , euσ2)
X ∈ R n × p β ∈ R pY∈Rn , eX∈Rn×p β∈Rp
Observe que o erro do nosso modelo (residual) é . Nosso objetivo é encontrar um vetor de s que minimize a norma ao quadrado desse erro. p L 2ϵ=Y−Xβ β L2
Mínimos Quadrados
Dados os dados que cada é dimensional, buscamos encontrar:x i p(x1,y1),...,(xn,yn) xi p
Máxima verossimilhança
Usando o modelo acima, podemos configurar a probabilidade dos dados, considerando os parâmetros como:β
onde é o pdf de uma distribuição normal com média 0 e variância . Conectando-o:σ 2f(yi|xi,β) σ2
Agora, geralmente, ao lidar com as probabilidades, é matematicamente mais fácil fazer o registro antes de continuar (os produtos se tornam somas, os exponenciais desaparecem), então vamos fazer isso.
Como queremos a estimativa da máxima probabilidade, queremos encontrar o máximo da equação acima, com relação a . O primeiro termo não afeta nossa estimativa de , para que possamos ignorá-la:β β
Observe que o denominador é uma constante em relação a . Por fim, observe que há um sinal negativo na frente da soma. Portanto, encontrar o máximo de um número negativo é como encontrar o mínimo sem o negativo. Em outras palavras:β
Lembre-se de que, para que isso funcionasse, tivemos que fazer certas suposições do modelo (normalidade dos termos de erro, 0 média, variação constante). Isso torna o mínimo de quadrados equivalente ao MLE sob certas condições. Veja aqui e aqui para mais discussões.
Para completar, observe que a solução pode ser escrita como:
fonte