Eu tenho algumas perguntas conceituais simples que gostaria de esclarecer sobre o MLE (Estimativa de Máxima Verossimilhança) e qual o vínculo que ele tem, se houver, com o EM (Maximização de Expectativas).
Pelo que entendi, se alguém disser "Usamos o MLE", isso significa automaticamente que eles têm um modelo explícito do PDF de seus dados? Parece-me que a resposta é sim. Dito de outra forma, se a qualquer momento alguém disser "MLE", é justo perguntar qual PDF está assumindo. Isso seria correto?
Por fim, no EM, meu entendimento é que, no EM, na verdade não sabemos - ou precisamos saber, o PDF subjacente de nossos dados. Esse é o meu entendimento.
Obrigado.
Respostas:
O método MLE pode ser aplicado nos casos em que alguém conhece a forma funcional básica do pdf (por exemplo, é Gaussian, ou log-normal, ou exponencial, ou o que for), mas não os parâmetros subjacentes; por exemplo, eles não sabem os valores de e σ no pdf: f ( x | μ , σ ) = 1μ σ ou qualquer outro tipo de pdf que eles estejam assumindo. O emprego do método de MLE é escolher os melhores valores (ou seja, mais plausíveis) para os parâmetros desconhecidos, tendo em conta as medições de dados particularesx1,x2,x3,. . .
O algoritmo EM, como já o vi aplicado no passado, é mais um tipo de meta-algoritmo, em que alguns dos metadados estão ausentes, e você precisa estimar isso também. Assim, por exemplo, talvez ter uma PDF, que é uma mistura de vários Gaussianas, por exemplo:
The role of the EM algorithm is to provide a mechanism for making those types of comparisons (usually by imposing a "complexity penalty" that prefers smaller values ofN ) so that we can choose the best overall value for N .
So, to answer your original question, the EM algorithm requires a less precise specification of the form of the pdf; one might say that it considers a range of alternative options (e.g., the option whereN=1 , N=2 , N=3 , etc.) but it still requires you to specify something about the basic mathematical form of those options--you still have to specify a "family" of possible pdfs, in some sense, even though you are letting the algorithm decide for you which "member" of the family provides the best fit to the data.
fonte
MLE requires knowledge of at least the marginal distributions. When using MLE, we usually estimate the parameters of a joint distribution by making an iid assumption, then factoring the joint distribution as a product of the marginals, which we know. There are variations, but this is the idea in most cases. So MLE is a parametric method.
The EM algorithm is a method for maximizing the likelihood functions that come up as part of a MLE algorithm. It is often (usually?) used for numerical solutions.
Whenever we use MLE, we need at least the marginal distributions, and some assumption about how the joint is related to the marginals (independence, etc.). Therefore both methods rely on knowledge of distributions.
fonte