Método da máxima verossimilhança vs. método dos mínimos quadrados

42

Qual é a principal diferença entre a estimativa de máxima verossimilhança (MLE) e a estimativa de mínimos quadrados (LSE)?

Por que não podemos usar o MLE para prever valores de em regressão linear e vice-versa?y

Qualquer ajuda sobre este tópico será muito apreciada.

evros
fonte
8
Você pode usar o MLE em regressão linear, se quiser. Isso pode até fazer sentido se a distribuição de erros não for normal e seu objetivo for obter a estimativa "mais provável" em vez de uma que minimize a soma dos quadrados.
Richard Hardy
16
Sob a suposição de erro normal, como normalmente é assumido na regressão linear, o MLE e o LSE são os mesmos!
TrynnaDoStat
1
Pesquise em nosso site o teorema de Gauss-Markov .
whuber
Obrigado por todas as respostas. Agora isso faz sentido. Ao pesquisar esse tópico na rede, deparei-me com este artigo. Talvez isso também ajude: radfordneal.wordpress.com/2008/08/09/…
evros
1
Uma resposta também é fornecida em stats.stackexchange.com/questions/12562/… .
whuber

Respostas:

19

Eu gostaria de fornecer uma resposta direta.

Qual é a principal diferença entre a estimativa de máxima verossimilhança (MLE) e a estimativa de mínimos quadrados (LSE)?

Como o @TrynnaDoStat comentou, minimizar o erro ao quadrado é equivalente a maximizar a probabilidade nesse caso. Como dito na Wikipedia ,

Em um modelo linear, se os erros pertencem a uma distribuição normal, os estimadores de mínimos quadrados também são os estimadores de probabilidade máxima.

eles podem ser vistos da mesma forma no seu caso,

Deixe-me detalhar um pouco. Como sabemos que a variável de resposta ( ) possui um modelo de distribuição de erro normal, a função de probabilidade é: Obviamente, maximizar L é equivalente a minimizar Esse é o método dos mínimos quadrados.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

insira a descrição da imagem aqui
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Por que não podemos usar o MLE para prever valores de em regressão linear e vice-versa? y

Como explicado acima, na verdade (mais precisamente), estamos usando o MLE para prever valores . E se a variável resposta tiver distribuições arbitrárias em vez da distribuição normal, como a distribuição de Bernoulli ou qualquer outra da família exponencial , mapeamos o preditor linear para a distribuição da variável de resposta usando uma função de link (de acordo com a distribuição de resposta), a função de probabilidade se torna o produto de todos os resultados (probabilidades entre 0 e 1) após a transformação. Podemos tratar a função de link na regressão linear como a função de identidade (já que a resposta já é uma probabilidade).y

Lerner Zhang
fonte
3
Você pode definir "este caso" um pouco mais claramente, pois, em geral, probabilidade máxima e mínimos quadrados não são a mesma coisa.
Matthew Gunn
2
@ MatthewGunn Sim, eu usei "equivalente a" diferente de "o mesmo".
Lerner Zhang #
Seria ótimo se você desse um exemplo em que o modelo linear segue uma distribuição de erro não normal e como você usa o MLE nesse caso para estimar os melhores coeficientes. Se não for possível, pelo menos você pode nos indicar uma fonte correta, o que demonstra isso usando modelos lineares como regressão de Poisson
VM_AI
12

ML é um conjunto mais alto de estimadores que inclui desvios mínimos absolutos ( Normal) e mínimos quadrados ( Normal). Sob o capô do ML, os estimadores compartilham uma ampla gama de propriedades comuns, como o (infelizmente) ponto de ruptura inexistente. De fato, você pode usar a abordagem de ML como um substituto para otimizar muitas coisas, incluindo OLS, desde que esteja ciente do que está fazendo.L 2L1L2

L 2L2 Norm remonta ao CF Gauss e tem cerca de 200 anos, enquanto a abordagem moderna de ML remonta ao (IMHO) Huber 1964. Muitos cientistas estão acostumados a Norms e suas equações. A teoria é bem compreendida e há muitos artigos publicados que podem ser vistos como extensões úteis, como:L2

  • espionagem de dados
  • parâmetros estocásticos
  • restrições fracas

Os aplicativos profissionais não se ajustam apenas aos dados, eles verificam:

  • se o parâmetro for significativo
  • se seu conjunto de dados tiver discrepâncias
  • qual outlier pode ser tolerado, pois não prejudica o desempenho
  • qual medida deve ser removida, pois não contribui para o grau de liberdade

Também há um grande número de testes estatísticos especializados para hipóteses. Isso não é necessário para todos os estimadores de ML ou deve ser pelo menos declarado com uma prova.

Outro ponto profano é que -Norm é muito fácil de implementar, pode ser estendido à regularização bayesiana ou a outros algoritmos como Levenberg-Marquard.L2

A não esquecer: Desempenho. Nem todos os casos mínimos quadrados como Gauss-Markov produzem equações normais definidas positivas simétricas . Portanto, eu uso uma biblioteca separada para cada -Norm. É possível executar otimizações especiais para este caso específico. ( X T X ) - 1 L 2Xβ=L+r(XTX)1L2

Sinta-se livre para pedir detalhes.

nali
fonte