Por que a estimativa de máxima verossimilhança é considerada uma técnica freqüentista

Estatísticas freqüentistas para mim são sinônimos por tentar tomar decisões que são boas para todas as amostras possíveis. Ou seja, uma regra de decisão freqüentista deve sempre tentar minimizar o risco freqüentista, que depende da função de perda e do verdadeiro estado da natureza : $\delta$ $L$ $\theta_0$

R_{f r e q} = E_{θ_{0 0}} (eu (θ_{0 0}, δ (Y))

$R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y))$

Como a estimativa de máxima verossimilhança está ligada ao risco freqüentista? Dado que é a técnica de estimativa de pontos mais utilizada pelos frequentistas, deve haver alguma conexão. Até onde eu sei, a estimativa da máxima probabilidade é mais antiga que o conceito de risco freqüentista, mas ainda deve haver alguma conexão por que mais pessoas afirmariam que essa é uma técnica freqüentista?

A conexão mais próxima que eu encontrei é que

"Para modelos paramétricos que satisfazem condições de regularidade fracas, o estimador de probabilidade máxima é aproximadamente minimax" Wassermann 2006, p. 201 "

A resposta aceita vincula a estimativa do ponto de probabilidade máxima mais forte ao risco freqüentista ou fornece uma definição formal alternativa de inferência freqüencial que mostra que o MLE é uma técnica de inferência freqüentista.

maximum-likelihood frequentist Julian Karls
fonte

ML não presta atenção ao risco! Isso, de fato, faz parte da crítica teórica de decisão freqüentista de ML. Suspeito que essa pergunta possa ser difícil de responder porque usa implicitamente "Frequentist" em dois sentidos incompatíveis - um é teórico da decisão, referindo-se a uma função de perda, e o outro refere-se implicitamente a não assumir uma distribuição anterior.

whuber

O @whuber ML presta atenção ao risco. De fato, é a minimização sob perda logarítmica sob um uniforme inadequado anterior.

Cagdas Ozgenc

@Cagdas Eu acredito que esse geralmente não é o risco para um tomador de decisão: ele apenas exibe ML como se estivesse minimizando o risco se a perda logarítmica fosse o risco que importava para eles. Apelar a um "uniforme impróprio anterior" é decididamente não freqüentador, a propósito!

whuber

Os procedimentos de estimativa bayesiana do @whuber também estão usando perda de log acumulada. Somente depois disso o risco do tomador de decisão é aplicado. Se estamos falando sobre a otimização direta do risco do tomador de decisão (não através de um trampolim para perda de log), os procedimentos freqüentistas são mais famosos nesse aspecto, ou seja, OLS.

Cagdas Ozgenc

Respostas:

Você aplica uma definição relativamente restrita de frequentismo e MLE - se formos um pouco mais generosos e definirmos

Frequentismo: objetivo de consistência, otimização (assintótica), imparcialidade e taxas de erro controladas sob amostragem repetida, independentemente dos parâmetros verdadeiros
MLE = estimativa pontual + intervalos de confiança (ICs)

parece claro que o MLE satisfaz todos os ideais freqüentistas. Em particular, os ICs no MLE, como valores-p, controlam a taxa de erro em amostragens repetidas e não fornecem a região de probabilidade de 95% para o verdadeiro valor do parâmetro, como muitas pessoas pensam - portanto, eles são frequentes e freqüentes.

Nem todas essas idéias já estavam presentes no artigo fundador de Fisher de 1922, "Sobre os fundamentos matemáticos da estatística teórica" , mas a idéia de otimalidade e imparcialidade é, e Neyman posteriormente acrescentou a idéia de construir ICs com taxas de erro fixas. Efron, 2013, "Um argumento de 250 anos: Crença, comportamento e autoinicialização" , resume em sua história muito legível do debate bayesiano / freqüentista:

O movimento freqüentador realmente começou a rolar no início dos anos 1900. Ronald Fisher desenvolveu a teoria da máxima verossimilhança da estimativa ótima, mostrando o melhor comportamento possível para uma estimativa, e Jerzy Neyman fez o mesmo para intervalos e testes de confiança. Os procedimentos de Fisher e Neyman se encaixavam quase perfeitamente nas necessidades científicas e nos limites computacionais da ciência do século XX, lançando o bayesianismo em uma existência sombria.

Em relação à sua definição mais restrita - discordo levemente da sua premissa de que a minimização do risco freqüentista (FR) é o principal critério para decidir se um método segue a filosofia freqüentista. Eu diria que o fato de minimizar a FR é uma propriedade desejável segue a filosofia freqüentista, ao invés de precedê-la. Portanto, uma regra de decisão / estimador não precisa minimizar o FR para ser freqüentista, e minimizar o FR também não significa necessariamente que um método seja freqüentista, mas um freqüentador em dúvida preferiria minimizar a FR.

Se olharmos especificamente para o MLE: Fisher mostrou que o MLE é assintoticamente ideal (amplamente equivalente à minimização de FR), e essa foi certamente uma razão para promover o MLE. No entanto, ele sabia que a otimização não se aplicava ao tamanho finito da amostra. Ainda assim, ele ficou satisfeito com esse estimador devido a outras propriedades desejáveis, como consistência, normalidade assintótica, invariância sob transformações de parâmetros, e não vamos esquecer: facilidade de calcular. A invariância, em particular, é enfatizada abundantemente no artigo de 1922 - pela minha leitura, eu diria que manter a invariância sob a transformação de parâmetros e a capacidade de se livrar dos anteriores em geral foram uma das principais motivações na escolha do MLE. Se você quer entender melhor o raciocínio dele, eu realmente recomendo o artigo de 1922,

Florian Hartig
fonte

Posso resumir sua resposta como a estimativa do ponto de máxima verossimilhança é mais frequentemente usada em conjunto com os ICs ou como parte de um teste de hipótese (por exemplo, um teste de ração de verossimilhança); portanto, é uma técnica freqüentista? Se for esse o caso, acho que essa é uma resposta válida, mas não a que eu esperava. Eu estava buscando um argumento formal sobre por que a estimativa de máxima verossimilhança pode ser considerada uma técnica de estimativa pontual freqüentista. Se isso requer outra definição formal de inferência freqüentista, isso também é bom.

precisa saber é o seguinte

Eu geralmente penso no MLE como uma estrutura que inclui estimativas de pontos de Fisher juntamente com os ICs de Neyman - é assim que é ensinado em sala de aula e, devido aos argumentos acima, eu diria que é frequente até os ossos. Gostaria de saber quanto faz sentido discutir se o MLE sozinho é um estimador freqüentista, sem o contexto de como e por que ele é usado. Se você quer os motivos de Fisher, eu realmente recomendo o artigo de 1922 - eu diria que os motivos pelos quais ele afirma são freqüentadores, embora essa palavra não existisse naquela época. Eu estendi meu comentário a esse respeito.

Florian Hartig 16/01

Basicamente, por duas razões:

A probabilidade máxima é uma estimativa pontual dos parâmetros do modelo. Nós bayesianos gostamos de distribuições posteriores.
A probabilidade máxima não assume distribuição prévia . Nós bayesianos precisamos de nossos antecedentes, pode ser informativo ou não informativo, mas precisa existir

Uri Goren
fonte

+1 Gostaria apenas de salientar que você parece implicitamente equiparar "frequentista" a "não bayesiano" nesta resposta. A linguagem de "nós bayesianos" também sugere que "bayesiano" se refere a algum tipo de característica pessoal ou pertencimento a uma tribo - quase como se você fosse um tipo de esquimó - e não a um conjunto de técnicas e interpretações.

whuber

Por outro lado, o MLE pode ser facilmente derivado como uma técnica bayesiana. É simplesmente a estimativa do MAP para qualquer modelo estatístico usando um uniforme anterior.

Julian Karls

MAPé também uma estimativa de ponto-sábio, e é desaprovada por "True Bayesians"

Uri Goren