Estimativa de máxima verossimilhança (MLE) em termos leigos

92

Alguém poderia me explicar em detalhes sobre a estimativa de máxima verossimilhança (MLE) em termos leigos? Gostaria de conhecer o conceito subjacente antes de entrar em derivação ou equação matemática.

StatsUser
fonte
9
Não está claro que tipo de resposta você procura. Você sabe qual é a probabilidade, por exemplo? Caso contrário, é melhor descobrir isso primeiro.
Glen_b
4
Além disso, acho que qualquer resposta que não envolva matemática em algum nível será inadequada.
precisa saber é o seguinte
1
Experimente este link . Tem uma explicação bastante clara sobre o MLE, MAP, EM. Eu acho que abrange a idéia básica do MLE em termos simples.
Nimish Kulkarni 07/11
2
Eu acho que isso fornece uma explicação muito intuitiva do MLE. Eu diria que, se os conceitos ainda não estiverem claros, seria ideal revisar algumas estatísticas básicas.
KartikKannapur

Respostas:

76

Digamos que você tenha alguns dados. Digamos que você esteja disposto a assumir que os dados provêm de alguma distribuição - talvez gaussiana. Há um número infinito de diferentes gaussianos dos quais os dados poderiam ter vindo (que correspondem à combinação do número infinito de médias e variações que uma distribuição gaussiana pode ter). O MLE selecionará o gaussiano (isto é, a média e a variância) que é "mais consistente" com seus dados (o significado exato de consistente é explicado abaixo).

Então, digamos que você tenha um conjunto de dados de . O Gaussiano mais consistente do qual esses dados poderiam ter obtido tem uma média de 3 e uma variação de 16. Ele poderia ter sido amostrado de algum outro gaussiano. Mas um com média de 3 e variância de 16 é mais consistente com os dados no seguinte sentido: a probabilidade de obter os valores específicos que você observou é maior com essa escolha de média e variância do que com qualquer outra opção.y={-1,3,7}y

Movendo para a regressão: em vez de a média ser uma constante, a média é uma função linear dos dados, conforme especificado pela equação de regressão. Então, digamos que você tenha dados como junto com de antes. A média desse gaussiano é agora o modelo de regressão ajustado , ondex={2,4,10}y p Xβ^p = [ - 1,9 , 0,9 ]β^=[-1.9,.9]

Mudando para GLMs: substitua Gaussian por alguma outra distribuição (da família exponencial). A média agora é uma função linear dos dados, conforme especificado pela equação de regressão, transformada pela função de link. Portanto, é , onde para logit (com dados binomiais).g(Xβ)g(x)=ex/(1+ex)

generic_user
fonte
28
“O MLE escolherá o gaussiano que é o mais provável, dados seus dados. ” Hmmm, não é verdade: o MLE escolherá o gaussiano sob o qual seus dados são mais prováveis? O que é um pouco diferente de escolher o "gaussiano mais provável" ... não escolher o gaussiano mais provável exigiria uma consideração de crenças anteriores ?
precisa
9
@ ACD Eu não acho que isso seja incompleto, mas fornece a intuição correta. Por exemplo, não vejo nenhum problema em não discutir casos especiais, como a função de probabilidade, com mais de um máximo. Mas a diferença entre a distribuição com maior probabilidade de produzir os dados observados e a distribuição mais provável com base nos dados é a diferença fundamental entre a inferência freqüentista e bayesiana. Então, se você explicar dessa maneira, estará criando uma pedra de tropeço para o futuro.
Erik
6
Claro, mas a explicação conceitual mais correta é mais difícil de entender do que a que você escreveu? Acho que não. Acho que a maior parte da sua resposta está boa, mas eu apenas recomendaria que, por uma questão de posteridade, edite levemente algumas frases para evitar discutir "o mais provável gaussiano" e, em vez disso, aponte que aquilo que queremos ser "provável" (em termos coloquiais ) sob ML não é a hipótese, mas os dados. Acho que isso pode ser uma edição menor, mas importante, da sua resposta agradável.
Jake Westfall
7
@ Max: Muito obrigado por finalmente seguir em frente e corrigir esta resposta! Acho que pode fazer sentido escrever aqui explicitamente para os futuros leitores: a crítica expressa nos comentários acima votados por Erik e Jake não se aplica mais, depois que a resposta for editada.
Ameba
7
Só para pular: agradeço toda a atenção e melhorias dadas à minha resposta. Desculpas por inicialmente hesitar sobre as edições (que são boas) - fiquei relutante em ver a simplicidade da minha resposta corroída. Isso em grande parte não aconteceu.
generic_user
67

Estimativa de máxima verossimilhança (MLE) é uma técnica para encontrar a função mais provável que explica os dados observados. Eu acho que a matemática é necessária, mas não deixe que isso te assuste!

Digamos que temos um conjunto de pontos no plano , e queremos saber os parâmetros de função β e σ que provavelmente se encaixam nos dados (nesse caso, conhecemos a função porque eu a especifiquei para criar este exemplo, mas tenha paciência comigo).x,yβσ

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

Os pontos de dados

Para fazer um MLE, precisamos fazer suposições sobre a forma da função. Em um modelo linear, assumimos que os pontos seguem uma distribuição de probabilidade normal (Gaussiana), com média e variância σ 2 : y = N ( x β , σ 2 ) . A equação desta função de densidade de probabilidade é: 1xβσ2y=N(xβ,σ2)

12πσ2exp(-(yEu-xEuβ)22σ2)

O que queremos encontrar são os parâmetros e σ que maximizam essa probabilidade para todos os pontos . Esta é a função "probabilidade",βσL(xEu,yEu)eu

log(L)=ni=1-n

L=i=1nyi=i=1n12πσ2exp((yixiβ)22σ2)
Por vários motivos, é mais fácil usar o log da função de probabilidade:
log(L)=i=1nn2log(2π)n2log(σ2)12σ2(yixiβ)2

Podemos codificar isso como uma função em R com .θ=(β,σ)

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

Essa função, com valores diferentes de e , cria uma superfície.σβσ

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

superfície de probabilidade

Como você pode ver, existe um ponto máximo em algum lugar nessa superfície. Podemos encontrar parâmetros que especificam esse ponto com os comandos de otimização incorporados do R. Isso é razoavelmente próximo da descoberta dos parâmetros verdadeiros 0,β=2.7,σ=1.3

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

Mínimos quadrados ordinários são a probabilidade máxima de um modelo linear; portanto, faz sentido que lmnos dê as mesmas respostas. (Observe que é usado para determinar os erros padrão).σ2

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16
gregmacfarlane
fonte
Obrigado @gregmacfarlane por esta resposta agradável e útil. Um ponto secundário: não devemos primeiro definir beta e sigma2 no código da linha R data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? E é 0 +útil?
Emeryville
1
Sim betae sigma2precisa ser definido para que esse código seja executado. Eu os escondi para que pudéssemos "descobrir" os parâmetros, que quase sempre são desconhecidos quando você executa o MLE.
gregmacfarlane
Você também está certo de que 0 +algo realmente não faz nada; Eu apenas o incluí porque os modelos de regressão geralmente têm um intercepto. E se o MLE estavam tentando otimizar beta, sigma2 e alpha , eu não poderia mostrar a plotagem de superfície bonita (se você não sabe de um pacote de R que irá traçar em quatro dimensões!)
gregmacfarlane
2
@gregmacfarlane ótima resposta e me ajudou muito. Mas existem alguns erros de variação versus desvio padrão. Por favor, veja aqui. stats.stackexchange.com/questions/267534/…
Haitao Du
2
@ hxd1011 Obrigado por apontar este erro; Eu corrigi o erro.
gregmacfarlane
29

A estimativa de máxima verossimilhança (ML) de um parâmetro é o valor desse parâmetro sob o qual os dados reais observados são mais prováveis, em relação a quaisquer outros valores possíveis do parâmetro.

A idéia é que haja qualquer número de valores "verdadeiros" dos parâmetros que possam ter levado aos dados realmente observados com uma probabilidade diferente de zero (embora talvez pequena). Mas a estimativa de ML fornece o valor do parâmetro que levaria aos dados observados com a maior probabilidade.

Isso não deve ser confundido com o valor do parâmetro que provavelmente mais produziu seus dados!

OH

Você precisa se lembrar que "probabilidade" é um termo técnico. A probabilidade de H, Pr (O | H) e a probabilidade posterior de H, Pr (H | O) são quantidades diferentes e podem ter valores diferentes. A probabilidade de H é a probabilidade que H confere em O, não a probabilidade que O confere em H. Suponha que você ouça um ruído vindo do sótão de sua casa. Você considera a hipótese de que existem gremlins lá no boliche. A probabilidade dessa hipótese é muito alta, pois se houver gremlins jogando boliche no sótão, provavelmente haverá ruído. Mas certamente você não acha que o barulho torne muito provável que haja gremlins lá no boliche. Neste exemplo, Pr (O | H) é alto e Pr (H | O) é baixo. A hipótese gremlin tem uma alta probabilidade (no sentido técnico), mas uma baixa probabilidade.

Nos termos do exemplo acima, ML favoreceria a hipótese de Gremlin. Neste exemplo cômico específico, essa é claramente uma má escolha. Mas em muitos outros casos mais realistas, a estimativa de ML pode ser bastante razoável.

Referência

Sober, E. (2008). Evidências e evolução: a lógica por trás da ciência. Cambridge University Press.

Jake Westfall
fonte
8
Esta me parece a primeira resposta que torna esse ponto crucial clara e simples. Observe, no entanto, que "apenas levaria aos dados observados com a maior probabilidade " se seus dados forem discretos (como dados binomiais), mas "levaria os dados observados com a maior densidade articular " se os dados forem contínuos (como dados normais).
gung
6
Obrigado @gung. Estou ciente do tecnicismo que você mencionou, mas eu estava um pouco preocupado que qualquer discussão sobre "densidades conjuntas" seria um pouco de um trecho de "termos leigos" ...
Jake Westfall
Eu concordo com você, e achei que você sabia disso. Eu apenas pensei em mencioná-lo, uma vez que apareceu em outro lugar neste tópico.
gung
17

O MLE é o valor do parâmetro de interesse que maximiza a probabilidade de observar os dados que você observou. Em outras palavras, é o valor do parâmetro que torna mais provável que os dados observados tenham sido observados.

TrynnaDoStat
fonte
2
E se a função de probabilidade assim maximizada for, por sua vez, a função de densidade de probabilidade de uma variável aleatória contínua? O MLE ainda maximiza uma probabilidade? E se não, o que faz?
Alecos Papadopoulos
@AlecosPapadopoulos Entendo que a função de probabilidade pode ser considerada uma função de probabilidade do parâmetro, e o MLE é o valor do parâmetro que maximiza essa função de probabilidade. No entanto, sua pergunta sugere que há mais nuances?
Heisenberg
4
@Heisenberg A resposta tratou a função de probabilidade como a função de probabilidade conjunta da amostra (para a qual o ML fornece o máximo de parâmetros e, portanto, maximiza a probabilidade de qualquer amostra). E isso é correto quando os rv são discretos, mas não quando são contínuos, uma vez que a densidade da junta, por construção, não é uma probabilidade conjunta. Eu não caracterizaria isso como uma "nuance", é uma diferença fundamental entre os mundos discreto e contínuo.
Alecos Papadopoulos
@AlecosPapadopoulos I see. Portanto, você discorda do uso da palavra "função de probabilidade" vs "função de densidade". Está correto.
Heisenberg
ϵϵϵ
10

Ele é possível dizer algo sem usar matemática (muito), mas para aplicações estatísticas reais de probabilidade máxima que você precisa matemática.

A estimativa da máxima verossimilhança está relacionada ao que os filósofos chamam de inferência para a melhor explicação ou rapto . Usamos isso o tempo todo! Note que não digo que a máxima probabilidade seja abdução, esse termo é muito mais amplo e que alguns casos de estimativa bayesiana (com um empírico anterior) provavelmente também podem ser vistos como abdução. Alguns exemplos extraídos de http://plato.stanford.edu/entries/abduction/#Aca Veja também https://en.wikipedia.org/wiki/Abductive_reasoning (Na ciência da computação, "abdução" também é usada no contexto de modelos probabilísticos.)

  1. "Você sabe que Tim e Harry tiveram recentemente uma briga terrível que acabou com a amizade deles. Agora, alguém lhe diz que ela acabou de ver Tim e Harry correndo juntos. A melhor explicação para isso que você pode pensar é que eles inventaram. Você conclui que eles são amigos novamente. " Isso porque essa conclusão torna a observação que você tenta explicar mais provável do que na alternativa, que eles ainda não estão falando.

Outro exemplo: você trabalha no jardim de infância e um dia uma criança começa a andar de um jeito estranho, dizendo que quebrou as pernas. Você examina e não encontra nada errado. Então, você pode razoavelmente inferir que um dos pais dele quebrou as pernas, já que os filhos geralmente agem como descrito, de modo que é uma "inferência para a melhor explicação" e um exemplo de máxima probabilidade (informal). (e, é claro, essa explicação pode estar errada, é apenas provável, não tenho certeza. Rapto / probabilidade máxima não pode dar conclusões seguras).

O rapto consiste em encontrar padrões nos dados e, em seguida, procurar possíveis teorias que possam tornar esses padrões prováveis. Então, escolher a explicação possível, que torna o padrão observado maximamente provável, é apenas uma probabilidade máxima!

O principal exemplo de seqüestro na ciência é a evolução . Não existe uma única observação que implique evolução, mas a evolução torna os padrões observados mais prováveis ​​do que outras explicações.

Outro exemplo típico é o diagnóstico médico? Qual possível condição médica torna o padrão de sintomas observado mais provável? Novamente, isso também é uma probabilidade máxima! (Ou, nesse caso, talvez a estimativa bayesiana seja mais adequada, devemos levar em consideração a probabilidade anterior das várias explicações possíveis). Mas isso é um tecnicismo; nesse caso, podemos ter anteriores empíricos que podem ser vistos como uma parte natural do modelo estatístico, e o que chamamos de modelo , o que chamamos de prior é uma convenção estatística arbitrária (*).

Para voltar à pergunta original sobre a explicação do termo leigo para o MLE, aqui está um exemplo simples: quando minhas filhas tinham 6 e 7 anos de idade, perguntei-lhes isso. Fizemos duas urnas (duas caixas de sapatos), em uma colocamos 2 bolas pretas, 8 vermelhas, na outra os números foram trocados. Depois misturamos as urnas e desenhamos uma urna aleatoriamente. Então pegamos aleatoriamente uma bola dessa urna. Estava vermelho.

Então perguntei: De qual urna você acha que a bola vermelha foi sacada? Após cerca de um segundo pensando, eles responderam (em coro): Daquele com 8 bolas vermelhas!

Então eu perguntei: Por que você acha isso? E novamente, após cerca de um segundo (novamente no interior): "Porque então é mais fácil desenhar uma bola vermelha!". Ou seja, mais fácil = mais provável . Essa era a probabilidade máxima (é um exercício fácil escrever o modelo de probabilidade) e é "inferência para a melhor explicação", ou seja, abdução.

(*) Por que digo "arbitrário"? Para continuar o problema do diagnóstico médico, diga que o paciente é um homem com alguma dificuldade para diagnosticar a condição que o médico não viu antes. Então, digamos, na conversa com o paciente, surge que ele visitou algum lugar na África tropical há pouco tempo. Esse é um novo dado, mas seu efeito nos modelos típicos (usados ​​nesse tipo de situação, formal ou informal) será alterar o anterior das difíceis explicações possíveis, já que doenças tropicais como a malária agora ficarão mais altas probabilidade prévia. Portanto, os novos dados entram na análise anteriormente .

kjetil b halvorsen
fonte
pesquisar no Google por "raciocínio abdutivo e estimativa de probabilidade máxima" fornece muitos resultados relevantes.
Kjetil b halvorsen
1
(1/2) Olá kjetil, esta é uma resposta fantástica, e eu agradeço. (De qualquer forma, a publicidade sobre suas filhas é fofa. :)) De qualquer forma, estou lutando para construir meu próprio entendimento robusto de "A probabilidade", e formalizei minha pergunta aqui .
Creatron 17/07/16
1
eu(θ|x)=P(x|θ)
9

θθ

θθθ

(Se os dados forem de leitura contínua 'densidade de probabilidade' para 'probabilidade'. Portanto, se forem medidos em polegadas, a densidade será medida em probabilidade por polegada.)

Scortchi
fonte
3
y
@ DimitriyV.Masterov Na verdade, eles não são. Mesmo quando você pode, se bem me lembro, a probabilidade foi definida apenas (por Fisher, eu acho) "até uma constante multiplicativa".
Glen_b
@ Dimitriy, bom ponto; Eu adicionei.
Scortchi
1
@Glen, Para a maioria dos propósitos - testes de razão de verossimilhança, estimativa de máxima verossimilhança - você pode eliminar a constante. Para comparar o AIC entre modelos não aninhados, você não pode. Não pense que precisa entrar na definição de um leigo de qualquer maneira.
Scortchi
1
Contanto que você solte a mesma constante, você ainda pode.
Glen_b
6

Vamos jogar: estou em um quarto escuro, ninguém pode ver o que faço, mas você sabe que (a) atiro um dado e conto o número de '1s como' sucesso 'ou (b) jogo uma moeda e conto o número de cabeças como 'sucesso'.

Como eu disse, você não pode ver qual dos dois eu faço, mas eu lhe dou apenas uma única informação: digo que joguei um dado 100 vezes ou joguei a moeda 100 vezes e tive 17 sucessos .

A questão é adivinhar se joguei um dado ou joguei uma moeda.

Você provavelmente responderá que joguei um dado.

Se você o fizer, provavelmente terá 'adivinhado maximizando a probabilidade' porque, se eu observar 17 sucessos em 100 experimentos, é mais provável que eu joguei um dado do que joguei uma moeda.

Então, o que você fez foi tomar esse valor da 'probabilidade de sucesso' (1/6 para um dado e 1/2 para uma moeda) que torna mais provável a observação de 17 sucessos em 100. 'Mais provável' significa que o a chance de você ter 17 vezes um '1' em 100 jogadas de dados é maior do que a chance de ter 17 cabeças de 100 lançamentos de moedas.

Jacques Wainer
fonte
Como eu disse na minha resposta, 'sequestro' ou 'inferência para a melhor explicação'.
Kjetil b halvorsen
@kjetil b halvorsen: Eu não entendo o que você quer dizer?
Eu só tento comparar com a minha resposta acima. Esses termos são usados ​​em outros campos (filósofo, CS) para mais ou menos a mesma idéia: Escolha a explicação que melhor se ajusta melhor aos fatos, com um modelo probabilístico que leva à máxima probabilidade.
Kjetil b halvorsen
@kjetil b halvorsen: posso concluir que meu exemplo está ok? Para dizer o mesmo em termos leigos :-)?
1

Xμμμeuμfμ

eu(μ|X)=Eu=1Nf(xEu,μ)

ou probabilidade de log:

emeu(μ|X)=Eu=1Nemf(xEu,μ)

μf

μ

Exemplo

Primeiro vamos gerar alguns dados falsos:

set.seed(123)
x <- rnorm(1000, 1.78)

μX

llik <- function(mu) sum(log(dnorm(x, mu)))

μ

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

O mesmo poderia ser alcançado mais rapidamente com um algoritmo de otimização que procura o valor máximo de uma função de uma maneira mais inteligente que a força bruta . Existem vários exemplos, por exemplo, um dos mais básicos em R é optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

insira a descrição da imagem aqui

μ1,78μoptimize

Este exemplo mostra como você pode usar várias abordagens para encontrar o valor que maximiza a função de probabilidade para encontrar o "melhor" valor do seu parâmetro.

Tim
fonte
0

{y1,y2,...,yn}θ={μ,σ2}{y1,y2,...,yn}θ={μ,σ2}p(y1,y2,...,yn|θ)

eu(θ|y1,y2,...,yn)θeu(θ)θ{μ,σ2}eu{μ,σ2}eu(θ)

Blain Waan
fonte
0

Suponha que você tenha uma moeda. Jogá-lo pode dar cara ou coroa. Mas você não sabe se é uma moeda justa. Então você joga 1000 vezes. Ele aparece como cara 1000 vezes, e nunca como coroa.

0,52000

O MLE tenta ajudá-lo a encontrar a melhor explicação em uma situação como esta - quando você obtém algum resultado e deseja descobrir qual é o valor do parâmetro que provavelmente fornecerá esse resultado. Aqui, temos 2.000 cabeças de lançamentos de 2000 - portanto, usaríamos um MLE para descobrir qual a probabilidade de obter uma cabeça melhor explica a obtenção de 2.000 cabeças de 2.000 lançamentos.

É o estimador de máxima verossimilhança . Ele estima o parâmetro (aqui, é uma função de distribuição de probabilidade) que provavelmente produziu o resultado que você está visualizando atualmente.

1

Newb
fonte
-1

A maneira como entendo o MLE é esta: você só consegue ver o que a natureza quer que você veja. O que você vê são fatos. Esses fatos têm um processo subjacente que o gerou. Esses processos estão ocultos, desconhecidos, precisam ser descobertos. A pergunta é: dado o fato observado, qual a probabilidade de o processo P1 ter gerado? Qual é a probabilidade de que o processo P2 o tenha gerado? E assim por diante ... Uma dessas probabilidades será máxima de todas. MLE é uma função que extrai essa probabilidade máxima.

Pense em um sorteio; moeda é tendenciosa. Ninguém sabe o grau de viés. Pode variar de o (todas as caudas) a 1 (todas as cabeças). Uma moeda justa será de 0,5 (cabeça / cauda igualmente provável). Quando você faz 10 lançamentos e observa 7 cabeças, então o MLE é o grau de viés que é mais provável de produzir o fato observado de 7 cabeças em 10 lançamentos.

Kingz
fonte