Nós sempre usamos a estimativa de probabilidade máxima?

14

Gostaria de saber se a estimativa de máxima probabilidade já foi usada em estatística. Aprendemos o conceito, mas me pergunto quando é realmente usado. Se assumirmos a distribuição dos dados, encontraremos dois parâmetros, um para a média e outro para a variação, mas você realmente os usa em situações reais?

Alguém pode me dizer um caso simples em que é usado?

user122358
fonte
33
É método de estimativa mais prevalente. the
JohnK
3
Eu estava tentando perguntar quando não estamos usando o MLE
Haitao Du
4
regressão logística. Regressão de Poisson. OLS é o MLE quando os erros são considerados normais. Regressão gama. Qualquer GLM clássico realmente. Estimando a média de uma população normal. Estimando a probabilidade de sucesso de uma série de testes binomiais. Estimando a taxa de eventos de poisson. Eu poderia continuar ...
GoF_Logistic 14/03
4
Essa pesquisa muito restrita do nosso site produz centenas de exemplos de usos reais.
whuber
6
@ hxd1011 Você não está usando o MLE quando não está usando seus métodos para obter variações de estimativas ou calcular intervalos de confiança, previsão ou tolerância, por exemplo, mesmo quando o estimador que você está usando pode estar de acordo com o estimador do MLE. Por exemplo, você não está usando o MLE ao executar qualquer teste t. Geralmente, você não o usa quando aplica estimadores imparciais. Filosoficamente, você não usaria o MLE quando se preocupasse com uma função de perda ou se tivesse uma distribuição prévia.
whuber

Respostas:

25

Gostaria de saber se a estimativa de máxima probabilidade já foi usada em estatística.

Certamente! Na verdade, bastante - mas nem sempre.

Aprendemos o conceito, mas me pergunto quando é realmente usado.

Quando as pessoas têm um modelo distributivo paramétrico, geralmente escolhem usar a estimativa da máxima verossimilhança. Quando o modelo está correto, há várias propriedades úteis dos estimadores de probabilidade máxima.

Por um exemplo - o uso de modelos lineares generalizados é bastante difundido e, nesse caso, os parâmetros que descrevem a média são estimados por máxima verossimilhança.

Pode acontecer que alguns parâmetros sejam estimados pela máxima probabilidade e outros não. Por exemplo, considere um Poisson GLM super-disperso - o parâmetro de dispersão não será estimado pela máxima probabilidade, porque o MLE não é útil nesse caso.

Se assumirmos a distribuição dos dados, encontraremos dois parâmetros

Bem, às vezes você pode ter dois, mas às vezes você tem um parâmetro, às vezes três ou quatro ou mais.

um para a média e outro para a variância,

Você está pensando em um modelo específico, talvez? Isso não é sempre o caso. Considere estimar o parâmetro de uma distribuição exponencial ou Poisson ou distribuição binomial. Em cada um desses casos, há um parâmetro e a variação é uma função do parâmetro que descreve a média.

Ou considere uma distribuição gama generalizada , que possui três parâmetros. Ou uma distribuição beta de quatro parâmetros , que possui (talvez sem surpresa) quatro parâmetros. Observe também que (dependendo da parametrização específica) a média ou a variância ou ambas podem não ser representadas por um único parâmetro, mas pelas funções de vários deles.

Por exemplo, a distribuição gama, para a qual existem três parametrizações que vêem uso bastante comum - as duas mais comuns têm a média e a variância sendo funções de dois parâmetros.

Normalmente, em um modelo de regressão ou GLM ou em um modelo de sobrevivência (entre muitos outros tipos de modelo), o modelo pode depender de vários preditores; nesse caso, a distribuição associada a cada observação no modelo pode ter um de seu próprio parâmetro (ou até vários parâmetros) relacionados a muitas variáveis ​​preditoras ("variáveis ​​independentes").

Glen_b -Reinstate Monica
fonte
5
"Quando as pessoas têm um modelo distributivo paramétrico". Não se esqueça da estimativa de probabilidade máxima não paramétrica, para incluir a probabilidade empírica.
Mark L. Stone
3
@ Mark Relativamente mais raro, no entanto. Vou adicionar uma palavra à minha resposta.
Glen_b -Reinstate Monica
Podemos usar a estimativa de probabilidade máxima, mesmo assumindo que a distribuição, por exemplo, seja normal? Acho que não precisamos, mas ainda podemos usá-lo, estou certo?
user122358
@ user122358 Glen e Mark já lhe responderam. Você pode assumir uma distribuição ou não. Na maioria das vezes, você assume uma distribuição e, portanto, uma função de probabilidade.
HelloWorld 14/03
3
"Quando as pessoas têm um modelo distributivo paramétrico". Não se esqueça da estimativa de probabilidade máxima semi-paramétrica, para incluir a probabilidade parcial. ;)
Scortchi - Reinstate Monica
8

Embora os estimadores de maximizar a probabilidade possam parecer suspeitos, considerando as suposições sobre a distribuição de dados, os estimadores de máxima probabilidade quase máxima são frequentemente usados. A idéia é começar assumindo uma distribuição e resolver o MLE, depois remover a suposição distributiva explícita e, em vez disso, ver como o seu estimador se sai em condições mais gerais. Portanto, o Quasi MLE se torna uma maneira inteligente de obter um estimador, e a maior parte do trabalho está derivando as propriedades do estimador. Como as premissas distributivas são descartadas, o MLE quase normalmente não possui as boas propriedades de eficiência.

x1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2σ^2

Igor
fonte
Além disso, você pode verificar esta discussão sobre a intuição por trás do Quasi MLE.
Richard Hardy
5

A estimativa de probabilidade máxima é freqüentemente usada no aprendizado de máquina para treinar:

Observe que, em alguns casos, prefere-se adicionar alguma regularização, que às vezes é equivalente à estimativa máxima a posteriori , por exemplo, por que a penalidade de Lasso é equivalente à dupla exponencial (Laplace) antes? .

Franck Dernoncourt
fonte
3

Alguém pode me dizer um caso simples em que é usado?

Um caso muito típico está em regressão logística. A regressão logística é uma técnica usada frequentemente no aprendizado de máquina para classificar pontos de dados. Por exemplo, a regressão logística pode ser usada para classificar se um email é spam ou não é spam ou classificar se uma pessoa tem ou não uma doença.

xihθ(xi)=P[yi=1]=11+eθTxi

θ

θ^i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi))

user35734
fonte
1

Estamos usando o MLE o tempo todo, mas podemos não sentir isso. Vou dar dois exemplos simples para mostrar.

Exemplo 1

810θθ=0.8

Por que usar a contagem? na verdade, isso está implicitamente usando o MLE! Onde está o problema

Maximizeθ   θ8(1θ)2

Para resolver a equação, precisaremos de algum cálculo, mas a conclusão está contando.

Exemplo 2

Como estimamos parâmetros de distribuição gaussiana a partir de dados? Usamos a média empírica como média estimada e a variação empírica como variação estimada, que também é proveniente do MLE !.

Haitao Du
fonte
6
O exemplo 1 também é uma solução Bayes e um método de momentos (MM) (e provavelmente é a solução usando outros procedimentos também). O exemplo 2 é a solução MM. Seria muito mais convincente exibir procedimentos que são exclusivamente MLE - pois, caso contrário, nunca seria necessário.
whuber
Por que o exemplo 1 se torna uma solução Bayes e o Exemplo 2 se torna a solução MM? O que é MM, a propósito?
user122358
@ user122358 MM é o método dos momentos. Veja aqui, por exemplo: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld
0

Alguns usos máximos de probabilidade na comunicação sem fio:

  • Decodificação de dados digitais de sinais recebidos com ruído, com ou sem códigos redundantes.
  • Estimativa de compensações de tempo, fase e frequência nos receptores.
  • Estimativa do (parâmetros do) canal de propagação.
  • Estimativa de atraso, ângulo de chegada e desvio Doppler (por exemplo, radar).
  • Estimativa de uma posição móvel (por exemplo, GPS).
  • Estimativa de compensações de relógio para sincronização de todos os tipos de configurações distribuídas.
  • Uma infinidade de procedimentos de calibração.
GDumphart
fonte