Qual é a principal diferença entre a estimativa de máxima verossimilhança (MLE) e a estimativa de mínimos quadrados (LSE)?
Por que não podemos usar o MLE para prever valores de em regressão linear e vice-versa?
Qualquer ajuda sobre este tópico será muito apreciada.
Respostas:
Eu gostaria de fornecer uma resposta direta.
Como o @TrynnaDoStat comentou, minimizar o erro ao quadrado é equivalente a maximizar a probabilidade nesse caso. Como dito na Wikipedia ,
eles podem ser vistos da mesma forma no seu caso,
Deixe-me detalhar um pouco. Como sabemos que a variável de resposta ( ) possui um modelo de distribuição de erro normal, a função de probabilidade é: Obviamente, maximizar L é equivalente a minimizar Esse é o método dos mínimos quadrados.y Yi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2)) ∑i=1n(Yi−λ1Xi−λ2)2
Como explicado acima, na verdade (mais precisamente), estamos usando o MLE para prever valores . E se a variável resposta tiver distribuições arbitrárias em vez da distribuição normal, como a distribuição de Bernoulli ou qualquer outra da família exponencial , mapeamos o preditor linear para a distribuição da variável de resposta usando uma função de link (de acordo com a distribuição de resposta), a função de probabilidade se torna o produto de todos os resultados (probabilidades entre 0 e 1) após a transformação. Podemos tratar a função de link na regressão linear como a função de identidade (já que a resposta já é uma probabilidade).y
fonte
ML é um conjunto mais alto de estimadores que inclui desvios mínimos absolutos ( Normal) e mínimos quadrados ( Normal). Sob o capô do ML, os estimadores compartilham uma ampla gama de propriedades comuns, como o (infelizmente) ponto de ruptura inexistente. De fato, você pode usar a abordagem de ML como um substituto para otimizar muitas coisas, incluindo OLS, desde que esteja ciente do que está fazendo.L 2L1 L2
L 2L2 Norm remonta ao CF Gauss e tem cerca de 200 anos, enquanto a abordagem moderna de ML remonta ao (IMHO) Huber 1964. Muitos cientistas estão acostumados a Norms e suas equações. A teoria é bem compreendida e há muitos artigos publicados que podem ser vistos como extensões úteis, como:L2
Os aplicativos profissionais não se ajustam apenas aos dados, eles verificam:
Também há um grande número de testes estatísticos especializados para hipóteses. Isso não é necessário para todos os estimadores de ML ou deve ser pelo menos declarado com uma prova.
Outro ponto profano é que -Norm é muito fácil de implementar, pode ser estendido à regularização bayesiana ou a outros algoritmos como Levenberg-Marquard.L2
A não esquecer: Desempenho. Nem todos os casos mínimos quadrados como Gauss-Markov produzem equações normais definidas positivas simétricas . Portanto, eu uso uma biblioteca separada para cada -Norm. É possível executar otimizações especiais para este caso específico. ( X T X ) - 1 L 2Xβ=L+r (XTX)−1 L2
Sinta-se livre para pedir detalhes.
fonte