Por que os métodos de regressão Mínimos Quadrados e Máxima Verossimilhança não são equivalentes quando os erros não são normalmente distribuídos?

11

O título diz tudo. Entendo que os mínimos quadrados e a máxima verossimilhança fornecerão o mesmo resultado para os coeficientes de regressão se os erros do modelo forem normalmente distribuídos. Mas, o que acontece se os erros não forem normalmente distribuídos? Por que os dois métodos não são mais equivalentes?

Shuklaswag
fonte
Você quer dizer (a) usar o MLE quando a suposição de normalidade não for atendida ou (b) usar a função de probabilidade não gaussiana?
Tim
(a), quando o pressuposto de normalidade não for satisfeita
Shuklaswag
Mesmo quando a suposição não é atendida (ou seja, os valores observados não são distribuídos gaussianos) ... se você calcular o MLE com o uso da função de verossimilhança gaussiana, fará o mesmo que a otimização dos mínimos quadrados. Os métodos de otimização são matematicamente equivalentes e independentes de a suposição de normalidade estar correta ou não.
Sextus Empiricus
Mesmo com distribuições normais, os mínimos quadrados impõem uma variação fixa.
precisa saber é o seguinte
Consulte também esta pergunta relacionada: stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

Respostas:

16

Resposta curta

A densidade de probabilidade de uma Gaussiana multivariada distribuído variável x=(x1,x2,...,xn) , com média μ=(μ1,μ2,...,μn) está relacionado com o quadrado de a distância euclidiana entre a média e a variável ( |μx|22 ), ou seja, a soma dos quadrados.


Resposta longa

Se você multiplicar várias distribuições gaussianas para seus n erros, em que assume desvios iguais, obtém uma soma dos quadrados.

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

ou na forma logarítmica conveniente:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Portanto, otimizar o μ para minimizar a soma dos quadrados é igual a maximizar a probabilidade (log) (isto é, o produto de múltiplas distribuições gaussianas ou a distribuição gaussiana multivariada).

É esse quadrado aninhado da diferença (μx) dentro da estrutura exponencial, exp[(xiμ)2] , que outras distribuições não possuem.


Compare, por exemplo, com o caso das distribuições de Poisson

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

que tem um máximo quando o seguinte é minimizado:

μjlog(μj)xij

que é um animal diferente.


Além disso (história)

O histórico da distribuição normal (ignorando o deMoivre chegar a essa distribuição como uma aproximação para a distribuição binomial) é na verdade a descoberta da distribuição que faz o MLE corresponder ao método dos mínimos quadrados (em vez de o método dos mínimos quadrados ser um método que pode expressar o MLE da distribuição normal, primeiro veio o método dos mínimos quadrados, depois veio a distribuição gaussiana)

ex2

Da tradução de Charles Henry Davis (Teoria do movimento dos corpos celestes movendo-se sobre o sol em seções cônicas. Uma tradução do "Theoria motus" de Gauss, com um apêndice) ...

Gauss define:

ΔΔψΔ

(Itálico feito por mim)

E continua ( na seção 177 pp. 258 ):

ψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

k<0

ψΔ=hπehhΔΔ


Escrito por StackExchangeStrike

Sextus Empiricus
fonte
Você se lembra de onde obteve esse conhecimento? Você se importaria de adicionar a fonte à sua postagem? (Estou tendo um tempo difícil encontrar um livro que explica isso muito bem.)
Joooeey
@Joooeey Adicionei o título da fonte para as citações traduzidas de Gauss, bem como um link para uma das muitas fontes online. Este texto original é pesado, mas você deve encontrar tratados mais leves em qualquer descrição do histórico da distribuição normal.
Sextus Empiricus
As funções de probabilidade estão surgindo em muitos lugares. Se você procurar fontes onde obtive esse 'conhecimento', acho que poderia dizer o artigo de Pearson, de 1900, sobre o teste qui-quadrado, onde a distribuição normal multivariada é tratada geometricamente. Também Fisher usou representações geométricas várias vezes (há, por exemplo, este artigo nos anos 20, sobre eficiência de estimativas, onde ele compara o erro quadrático médio e o erro absoluto médio e fala sobre superfícies em um hiperespaço).
Sextus Empiricus
@Joooeey Eu fiz uma referência ao artigo de Fisher antes aqui . E minha resposta aqui usa um ponto de vista geométrico para derivar uma propriedade da distribuição t também relacionada a Fisher (acredito que o artigo em que ele prova a distribuição t de Gosset ou talvez algum artigo um pouco mais tarde).
Sextus Empiricus
5

Porque o MLE é derivado da suposição de resíduos normalmente distribuídos.

Observe que

minβ  Xβy2

β

De onde vem o conceito de probabilidade e probabilidade, assumimos

y=Xβ+ϵ

yϵ

Haitao Du
fonte
@ Matthew Drury por que alterar a notação da matriz e adicionar um sinal de soma?
Haitao Du
Imaginei que seria claro, mas se você afirma que uma afirmação não tem significado probalístico, não é possível usar uma expressão com símbolos que sejam melhor interpretados como variáveis ​​aleatórias. O problema de otimização que você está refenciando é em relação aos dados fixos, expliquei isso.
Matthew Drury
5

Os mínimos quadrados e o ajuste máximo de probabilidade (gaussiano) são sempre equivalentes. Ou seja, eles são minimizados pelo mesmo conjunto de coeficientes.

Alterar a suposição sobre os erros altera sua função de probabilidade (maximizar a probabilidade de um modelo é equivalente a maximizar a probabilidade do termo de erro) e, portanto, a função não será mais minimizada pelo mesmo conjunto de coeficientes.

Portanto, na prática, os dois são os mesmos, mas, em teoria, quando você maximiza uma probabilidade diferente, obtém uma resposta diferente da dos mínimos quadrados

Sam
fonte
"ou sempre equivalente"?
N
0

Um exemplo concreto: suponha que tomemos uma função de erro simples p (1) = .9, p (-9) = .10. Se tomarmos dois pontos, o LS apenas passará a linha através deles. ML, por outro lado, assumirá que ambos os pontos são uma unidade muito alta e, portanto, seguirá a linha através dos pontos deslocados para baixo na unidade.

Acumulação
fonte
2
Seu exemplo não é claro; em particular, é difícil ver qual modelo você está tentando descrever ou por que o ML produziria o resultado que você alega. Você poderia elaborar mais adiante nesta resposta?
whuber
O modelo é que y = mx + b + erro, em que o erro tem 90% de chance de ser +1 e 10% de chance de ser -9. Dado qualquer ponto observado, o ponto verdadeiro tem uma probabilidade de 90% de ser uma unidade abaixo e de 10% de nove unidades acima. Portanto, ML indica que o ponto verdadeiro é uma unidade abaixo. O que você não entende sobre isso?
Acccumulation
2
Seu comentário é útil, mas sua resposta ainda não descreve o modelo de maneira clara ou compreensível. Você poderia incorporar essa explicação na própria resposta? É um bom exemplo.
whuber