Quais são os prós e os contras dos dois métodos?
maximum-likelihood
predictive-models
optimization
gradient-descent
GeorgeOfTheRF
fonte
fonte
Respostas:
A estimativa de máxima verossimilhança é uma abordagem geral para estimar parâmetros em modelos estatísticos, maximizando afunção de verossimilhança definida como
isto é, a probabilidade de obter os dados dado algum valor do parâmetro θ . Conhecendo a função de probabilidade para um determinado problema, você pode procurar por θ que maximize a probabilidade de obter os dados que possui. Às vezes, conhecemos estimadores, por exemplo, a média aritmética é um estimador MLE para o parâmetro µ para distribuição normal , mas em outros casos você pode usar métodos diferentes que incluem o uso de algoritmos de otimização. A abordagem de ML não mostra como encontrar o valor ideal de θ - você pode simplesmente adivinhar e usar a probabilidade de comparar qual palpite era melhor - apenas indica como você pode comparar se um valor deX θ θ μ θ é "mais provável" que o outro.θ
A descida de gradiente é um algoritmo de otimização . Você pode usar esse algoritmo para encontrar o mínimo (ou máximo, então é chamado de ascensão gradiente ) de muitas funções diferentes. O algoritmo realmente não se importa com qual é a função que minimiza, apenas com o que foi solicitado. Portanto, com o uso do algoritmo de otimização, você precisa saber de alguma maneira como saber se um valor do parâmetro de interesse é "melhor" que o outro. Você precisa fornecer ao seu algoritmo alguma função para minimizar, e o algoritmo tratará de encontrar o mínimo.
Você pode obter estimativas de probabilidade máxima usando métodos diferentes e usar um algoritmo de otimização é um deles. Por outro lado, a descida do gradiente também pode ser usada para maximizar outras funções além da função de probabilidade.
fonte
f
Mas a probabilidade da regressão logística não funciona dessa forma em solução fechada . Então, temos que usar outro método, como
gradient descent
.fonte
likelihood function
+gradient descent
(para obter a solução da função de probabilidade) ainda é uma maneira de executar o MLE.Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
em Machine Learning: uma perspectiva probabilística, Kevin Murphy.