MLE sempre significa que sabemos o PDF subjacente de nossos dados e EM significa que não?

12

Eu tenho algumas perguntas conceituais simples que gostaria de esclarecer sobre o MLE (Estimativa de Máxima Verossimilhança) e qual o vínculo que ele tem, se houver, com o EM (Maximização de Expectativas).

Pelo que entendi, se alguém disser "Usamos o MLE", isso significa automaticamente que eles têm um modelo explícito do PDF de seus dados? Parece-me que a resposta é sim. Dito de outra forma, se a qualquer momento alguém disser "MLE", é justo perguntar qual PDF está assumindo. Isso seria correto?

Por fim, no EM, meu entendimento é que, no EM, na verdade não sabemos - ou precisamos saber, o PDF subjacente de nossos dados. Esse é o meu entendimento.

Obrigado.

Creatron
fonte
1
O "M" no EM significa Maximização ... de probabilidade. Para anotar uma probabilidade, precisamos de um pdf. O EM é uma maneira de encontrar MLEs na presença de 'não observáveis' em algum sentido (que são preenchidos na etapa E). Ou seja, para usar o EM, você precisa de um modelo explícito.
Glen_b -Reinstala Monica
@Glen_b Obrigado Gleb_b. Portanto, 1) seria correto dizer que, no EM, como no MLE, sempre assumimos algum modelo do PDF dos dados "? Significando que, se alguém disser" Usamos o MLE / EM ", podemos perguntar:" O que PDFs você assumiu ". Essa seria uma avaliação correta? 2) Por fim, em relação ao EM, acredito que os inobserváveis ​​aos quais você está se referindo são as probabilidades de PDFs específicos que compõem a mistura, correto? Agradecemos antecipadamente.
Creatron
Observe que existem métodos não paramétricos de máxima verossimilhança. Procure Kaplan-Meier.
soakley
Creatron - on (1) Observe que EM é um algoritmo para calcular MLEs que, de outra forma, seria difícil de lidar. Nos dois casos, eu faria a pergunta um pouco mais geral 'qual era o seu modelo?', Já que é bem possível que o modelo seja mais complexo do que um único pdf. On (2) O algoritmo EM não se aplica apenas a misturas; é mais geral que isso.
Glen_b -Reinstala Monica

Respostas:

13

O método MLE pode ser aplicado nos casos em que alguém conhece a forma funcional básica do pdf (por exemplo, é Gaussian, ou log-normal, ou exponencial, ou o que for), mas não os parâmetros subjacentes; por exemplo, eles não sabem os valores de e σ no pdf: f ( x | μ , σ ) = 1μσ ou qualquer outro tipo de pdf que eles estejam assumindo. O emprego do método de MLE é escolher os melhores valores (ou seja, mais plausíveis) para os parâmetros desconhecidos, tendo em conta as medições de dados particularesx1,x2,x3,. . .

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...que foram realmente observados. Portanto, para responder à sua primeira pergunta, sim, você sempre tem o direito de perguntar a alguém que formato de pdf ela está assumindo para obter a estimativa de probabilidade máxima; de fato, os valores estimados dos parâmetros que eles informam não são significativos, a menos que primeiro comuniquem esse contexto.

O algoritmo EM, como já o vi aplicado no passado, é mais um tipo de meta-algoritmo, em que alguns dos metadados estão ausentes, e você precisa estimar isso também. Assim, por exemplo, talvez ter uma PDF, que é uma mistura de vários Gaussianas, por exemplo:

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,...

NN=1A1μ1σ1N=2A1, A2, μ1, μ2, σ1, σ2). The best fit values that you obtain for (A1, μ1, σ1) in the N=1 model can't directly be compared to the best fit values that you obtain for those same parameters in the N=2 model, because they are different models with a different number of degrees of freedom.

The role of the EM algorithm is to provide a mechanism for making those types of comparisons (usually by imposing a "complexity penalty" that prefers smaller values of N) so that we can choose the best overall value for N.

So, to answer your original question, the EM algorithm requires a less precise specification of the form of the pdf; one might say that it considers a range of alternative options (e.g., the option where N=1, N=2, N=3, etc.) but it still requires you to specify something about the basic mathematical form of those options--you still have to specify a "family" of possible pdfs, in some sense, even though you are letting the algorithm decide for you which "member" of the family provides the best fit to the data.

stachyra
fonte
Some follow ups on your Excellent answer @stachyra: (1): The second equation (with the summation) - Is this the PDF of your mixture? (Meaning that Ak=1?) (2): In regards to the EM algorithm mentioned here - a little confused - is the value N given as an input to EM in the beginning, or is this something that EM will spit out as an output in the end?
Creatron
(3) Again for EM, when you say "specify the family of possible PDFs" for the EM, does this mean that we give it "possibilities' to work with, for example, "This data is made of two gaussians and one poisson", or "This data is made of 3 chi-squared PDFs and 1 gaussian", etc? This is confusing because it means we specify N, which I take it from your post is something EM gives us...
Creatron
1) Yes, this is the pdf of my mixture, and yes, Ak=1. 2) In practice, you usually give a min/max value of N for the algorithm to consider, and it loops through all allowed values to find the best one. 3) In most cases, the different possibilities that you are trying to choose between are just the different possible values of N; e.g., "N=4 gives a good fit, but N=5 is even better". If you want to consider alternatives that include a more heterogeneous collection of functional forms, in principle that's possible too, but trickier to implement in practice.
stachyra
Thank you stachyra. Last question, the PDF of out data mixture (given in your second equation made up of a weighted sum of PDFs), is NOT the same as the joint PDF of all the samples of our data, which is a product of their PDFs, correct? (Assume the data samples are IID).
Creatron
No, not at all--they're two completely different things. The joint pdf that you are describing sounds much more similar to the form of the likelihood function used in MLE. A textbook might be helpful to you here. For MLE, I like chapter 10 of "Data Reduction and Error Analysis for the Physical Sciences" by Philip R. Bevington and D. Keith Robinson, or section 6.1 of "Statistical Data Analysis" by Glen Cowan. For a specific example of how to do one particular type of EM implementation, I like this explanation, sections 2 through 5.
stachyra
2

MLE requires knowledge of at least the marginal distributions. When using MLE, we usually estimate the parameters of a joint distribution by making an iid assumption, then factoring the joint distribution as a product of the marginals, which we know. There are variations, but this is the idea in most cases. So MLE is a parametric method.

The EM algorithm is a method for maximizing the likelihood functions that come up as part of a MLE algorithm. It is often (usually?) used for numerical solutions.

Whenever we use MLE, we need at least the marginal distributions, and some assumption about how the joint is related to the marginals (independence, etc.). Therefore both methods rely on knowledge of distributions.

Charles Pehlivanian
fonte
Thanks @Charles that makes sense. What does it mean then when people talk about "non-parametric MLE". That phrase doesn't makes sense at first glance. MLE always estimate a parameter of the distribution, right?
Creatron
They may be talking about ELE (Empirical Likelihood Estimation). I've never used it; I'll try to explain if necessary. Otherwise I'm not sure.
Charles Pehlivanian