O título diz tudo. Entendo que os mínimos quadrados e a máxima verossimilhança fornecerão o mesmo resultado para os coeficientes de regressão se os erros do modelo forem normalmente distribuídos. Mas, o que acontece se os erros não forem normalmente distribuídos? Por que os dois métodos não são mais equivalentes?
11
Respostas:
Resposta curta
A densidade de probabilidade de uma Gaussiana multivariada distribuído variávelx = ( x1, x2, . . . , xn) , com média μ = ( μ1, μ2, . . . , μn) está relacionado com o quadrado de a distância euclidiana entre a média e a variável ( | μ - x |22 ), ou seja, a soma dos quadrados.
Resposta longa
Se você multiplicar várias distribuições gaussianas para seusn erros, em que assume desvios iguais, obtém uma soma dos quadrados.
ou na forma logarítmica conveniente:
Portanto, otimizar oμ para minimizar a soma dos quadrados é igual a maximizar a probabilidade (log) (isto é, o produto de múltiplas distribuições gaussianas ou a distribuição gaussiana multivariada).
É esse quadrado aninhado da diferença( μ - x ) dentro da estrutura exponencial, e x p [ ( xEu- μ )2] , que outras distribuições não possuem.
Compare, por exemplo, com o caso das distribuições de Poisson
que tem um máximo quando o seguinte é minimizado:
que é um animal diferente.
Além disso (história)
O histórico da distribuição normal (ignorando o deMoivre chegar a essa distribuição como uma aproximação para a distribuição binomial) é na verdade a descoberta da distribuição que faz o MLE corresponder ao método dos mínimos quadrados (em vez de o método dos mínimos quadrados ser um método que pode expressar o MLE da distribuição normal, primeiro veio o método dos mínimos quadrados, depois veio a distribuição gaussiana)
Da tradução de Charles Henry Davis (Teoria do movimento dos corpos celestes movendo-se sobre o sol em seções cônicas. Uma tradução do "Theoria motus" de Gauss, com um apêndice) ...
Gauss define:
E continua ( na seção 177 pp. 258 ):
Escrito por StackExchangeStrike
fonte
Porque o MLE é derivado da suposição de resíduos normalmente distribuídos.
Observe que
De onde vem o conceito de probabilidade e probabilidade, assumimos
fonte
Os mínimos quadrados e o ajuste máximo de probabilidade (gaussiano) são sempre equivalentes. Ou seja, eles são minimizados pelo mesmo conjunto de coeficientes.
Alterar a suposição sobre os erros altera sua função de probabilidade (maximizar a probabilidade de um modelo é equivalente a maximizar a probabilidade do termo de erro) e, portanto, a função não será mais minimizada pelo mesmo conjunto de coeficientes.
Portanto, na prática, os dois são os mesmos, mas, em teoria, quando você maximiza uma probabilidade diferente, obtém uma resposta diferente da dos mínimos quadrados
fonte
Um exemplo concreto: suponha que tomemos uma função de erro simples p (1) = .9, p (-9) = .10. Se tomarmos dois pontos, o LS apenas passará a linha através deles. ML, por outro lado, assumirá que ambos os pontos são uma unidade muito alta e, portanto, seguirá a linha através dos pontos deslocados para baixo na unidade.
fonte