Qual é a diferença entre Estimativa de máxima verossimilhança e Descida de gradiente?

Quais são os prós e os contras dos dois métodos?

maximum-likelihood predictive-models optimization gradient-descent GeorgeOfTheRF
fonte

Não estou procurando apenas a definição desses dois métodos que eu já tenho na pesquisa do Google. Estou tentando entender qual método é preferido nesse caso. Por exemplo: Para o Bigdata, um funcionará melhor que o outro, etc. Eu não consegui encontrar nenhum material bom que fale sobre aspectos práticos etc.

GeorgeOfTheRF 27/11/2015

Como é um corvo como uma escrivaninha?

whuber

O @ML_Pro GD não se relaciona de maneira alguma com a modelagem estatística, é um algoritmo. Você provavelmente poderia começar com algum manual introdutório de estatísticas para entender melhor a inferência estatística antes de aprender as ferramentas (como GD) para resolver problemas estatísticos.

Tim

Você queria perguntar a diferença entre Gradient Descent e Expectation Maximization (que normalmente é usado para resolver o problema de otimização no MLE)?

Sobi 13/12/2015

Respostas:

A estimativa de máxima verossimilhança é uma abordagem geral para estimar parâmetros em modelos estatísticos, maximizando afunção de verossimilhança definida como

eu (θ | X) = f (X | θ)

$L(\theta|X) = f(X|\theta)$

isto é, a probabilidade de obter os dados dado algum valor do parâmetro . Conhecendo a função de probabilidade para um determinado problema, você pode procurar por que maximize a probabilidade de obter os dados que possui. Às vezes, conhecemos estimadores, por exemplo, a média aritmética é um estimador MLE para o parâmetro para distribuição normal , mas em outros casos você pode usar métodos diferentes que incluem o uso de algoritmos de otimização. A abordagem de ML não mostra como encontrar o valor ideal de - você pode simplesmente adivinhar e usar a probabilidade de comparar qual palpite era melhor - apenas indica como você pode comparar se um valor de $X$ $\theta$ $\theta$ $\mu$ $\theta$ é "mais provável" que o outro. $\theta$

A descida de gradiente é um algoritmo de otimização . Você pode usar esse algoritmo para encontrar o mínimo (ou máximo, então é chamado de ascensão gradiente ) de muitas funções diferentes. O algoritmo realmente não se importa com qual é a função que minimiza, apenas com o que foi solicitado. Portanto, com o uso do algoritmo de otimização, você precisa saber de alguma maneira como saber se um valor do parâmetro de interesse é "melhor" que o outro. Você precisa fornecer ao seu algoritmo alguma função para minimizar, e o algoritmo tratará de encontrar o mínimo.

Você pode obter estimativas de probabilidade máxima usando métodos diferentes e usar um algoritmo de otimização é um deles. Por outro lado, a descida do gradiente também pode ser usada para maximizar outras funções além da função de probabilidade.

Tim
fonte

@ML_Pro Forneci dois links onde você pode encontrar informações detalhadas, não acho que seja necessário duplicar essas respostas.

Tim

@ML_Pro como escrevi na minha resposta, eles são coisas diferentes e você não pode compará-los ...

Tim

Sim, mas o MLE é uma abordagem geral e o GD é apenas um algoritmo que você pode usar para minimizar várias funções diferentes. É como se você comparasse álgebra a calculadora de bolso ...

Tim

MLE especifica a função objetivo (a função de verossimilhança); A GD encontra a solução ideal para um problema quando a função objetivo é especificada. Você pode usar o GD (ou outros algoritmos de otimização) para resolver um problema de probabilidade máxima e o resultado será o estimador de probabilidade máxima.

jbowman

@ML_Pro está descrito nos links que forneci na minha resposta. Em resumo: sim, é um produto de pdf. Produto porque assumimos que os dados são iid. É definido em termos de pdf, porque estamos falando de modelo de probabilidade.

Tim

-3

f = l (θ)

$f = l(\theta)$

\frac{d f}{d θ} = 0

$\frac{ df }{ d\theta } = 0$

θ

$\theta$ f

Mas a probabilidade da regressão logística não funciona dessa forma em solução fechada . Então, temos que usar outro método, como gradient descent.

Belter
fonte

@ Tim, você pode ver algo aqui, cursos.cs.washington.edu/courses/cse446/13sp/slides/…

Belter

"Os coeficientes de regressão geralmente são estimados usando a estimativa de máxima verossimilhança" ( en.wikipedia.org/wiki/Logistic_regression )

Tim

A estimativa da máxima verossimilhança é um tipo de método para estimar os coeficientes de regressão, mas temos várias maneiras de encontrar a solução do MLE. Portanto, usar likelihood function+ gradient descent(para obter a solução da função de probabilidade) ainda é uma maneira de executar o MLE.

Belter

Você também pode ver esta frase

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

em Machine Learning: uma perspectiva probabilística, Kevin Murphy.

Belter

... então a redação de sua resposta é confusa, pois parece que você está dizendo que, para regressão logística, não estamos usando ML e, em vez disso, usamos GD.

Tim