Quais são algumas aplicações ilustrativas da probabilidade empírica?

28

Ouvi falar da probabilidade empírica de Owen, mas até recentemente não prestava atenção até que me deparei com isso em um artigo de interesse ( Mengersen et al. 2012 ).

Em meus esforços para entendê-lo, observei que a probabilidade dos dados observados é representada como , onde e .

L=ipi=iP(Xi=x)=iP(Xix)P(Xi<x)
ipi=1pi>0

No entanto, não consegui dar o salto mental que liga essa representação à forma como ela pode ser usada para fazer inferências sobre as observações. Talvez eu esteja muito enraizado em pensar na probabilidade de parâmetros errados de um modelo?

Independentemente disso, tenho procurado no Google Scholar por algum artigo que emprega probabilidade empírica que me ajudaria a internalizar o conceito ... sem sucesso. Obviamente, há o livro de Art Owen sobre Probabilidade empírica , mas o Google Livros deixa de fora todos os detalhes deliciosos e ainda estou no lento processo de obter um empréstimo entre bibliotecas.

Enquanto isso, alguém pode me indicar documentos e documentos que ilustrem claramente a premissa da probabilidade empírica e como ela é empregada? Uma descrição ilustrativa do próprio EL também seria bem-vinda!

Sameer
fonte
2
Econometristas, em particular, se apaixonaram por EL. Se você estiver procurando por aplicativos , essa literatura pode ser um dos melhores lugares para procurar.
cardeal

Respostas:

17

Não consigo pensar em lugar melhor do que o livro de Owen para aprender sobre probabilidade empírica.

Uma maneira prática de pensar em é como a probabilidade de uma distribuição multinomial nos pontos de dados observados . A probabilidade é, portanto, uma função do vetor de probabilidade , o espaço do parâmetro é realmente o simplex dimensional dos vetores de probabilidade, e o MLE está colocando peso em cada uma das observações (supondo que elas são todos diferentes). A dimensão do espaço do parâmetro aumenta com o número de observações.x 1 , , x n ( p 1 , , p n ) n 1 / nL=L(p1,,pn)x1,,xn(p1,,pn)n1/n

Um ponto central é que a probabilidade empírica fornece um método para calcular os intervalos de confiança através do perfil sem especificar um modelo paramétrico. Se o parâmetro de interesse é a média, , então para qualquer vetor de probabilidade , temos que a média é e podemos calcular a probabilidade do perfil como Em seguida, podemos calcular intervalos de confiança no formato com . Aqui é a média empírica eμp=(p1,,pn)

μ(p)=i=1nxipi,
Lprof(μ)=max{L(p)μ(p)=μ}.
Ir={μLprof(μ)rLprof(x¯)}
r(0,1)x¯Lprof(x¯)=nn. Os intervalos talvez devam ser chamados apenas de intervalos de probabilidade (perfil), já que nenhuma declaração sobre cobertura é feita antecipadamente. Com a diminuição de os intervalos (sim, são intervalos) formam uma família crescente e aninhada de intervalos de confiança. A teoria assintótica ou o bootstrap pode ser usada para calibrar para alcançar 95% de cobertura, digamos.IrrIrr

O livro de Owen aborda isso em detalhes e fornece extensões para problemas estatísticos mais complicados e outros parâmetros de interesse.

NRH
fonte
4
(+1) Sem acesso ao livro, pode-se sempre começar com os trabalhos originais para obter o básico da teoria. Assim como o livro, os papéis também são claramente escritos.
cardeal
6
Alguns links: ( 1 ) A. Owen (1988), intervalos de confiança da razão de verossimilhança empírica para um único funcional , Biometrika , vol. 75, No. 2, pp. 237-249, ( 2 ) A. Owen (1990), regiões de confiança da razão de verossimilhança empírica , Ann. Statist. vol. 18, n. 1, pp. 90-120 ( acesso aberto ) e ( 3 ) A. Owen (1991) Probabilidade empírica para modelos lineares , Ann. Statist. vol. 19, n. 4, pp. 1725-1747 ( acesso aberto ).
cardeal
@ cardinal Fantastic! Deveria ter pensado nisso.
Sameer
@ NHS Obrigado pela sua explicação! Só para ficar claro, o os 's? Além disso, você pode explicar por que ? Talvez ser ? Lprof(μ)argmaxpLprof(x¯)=nnin1=nn
Sameer
@Sameer, o erro de digitação está corrigido agora. No entanto, é não o argmax. É a probabilidade do perfil obtida maximizando a probabilidade de todos os vetores de parâmetros com um determinado valor de . Com acesso universitário adequado, obtive uma versão eletrônica do CRC dos capítulos individuais do livro de Owen. μ
NRH 25/06
15

Em econometria, muitos trabalhos aplicados começam com a suposição de que onde é um vetor de dados, é um sistema conhecido de equações e é um parâmetro desconhecido, . A função vem de um modelo econômico. O objetivo é estimar .

E[g(X,θ)]=0
XgqθΘRpqpgθ

A abordagem tradicional, em econometria, para estimativa e inferência em é usar o método generalizado de momentos: que é uma matriz de ponderação definida positiva e Provedores de probabilidade empírica são um estimador alternativo ao GMM. A idéia é impor a condição de momento como uma restrição ao maximizar a probabilidade não paramétrica. Primeiro, corrija um . Resolva sujeito a θ

θ^GMM=argminθΘg¯n(θ)Wg¯n(θ)
W
g¯n(θ):=1ni=1ng(Xi,θ).
θ
L(θ)=maxp1,,pni=1npi
i=1npi=1,pi0,i=1npig(Xi,θ)=0.
Este é o `loop interno ' Em seguida, maximize sobre : Foi demonstrado que essa abordagem possui melhores propriedades de ordem superior ao GMM (ver Newey e Smith 2004, Econometrica ), que é uma das razões pelas quais é preferível ao GMM. Para referência adicional, consulte as notas e a aula de Imbens e Wooldridge aqui (aula 15).θ
θ^EL=argmaxθΘlogL(θ).

É claro que existem muitas outras razões pelas quais EL atraiu a atenção na econometria, mas espero que este seja um ponto de partida útil. Modelos de igualdade de momento são muito comuns na economia empírica.

Aelmore
fonte
Obrigado por escrever uma resposta tão clara e bem referenciada. Bem vindo à nossa comunidade!
whuber
7

Na análise de sobrevivência, a curva de Kaplan-Meier é o estimador não paramétrico mais famoso da função de sobrevivência , onde denota a variável aleatória de tempo para evento. Basicamente, é uma generalização da função de distribuição empírica que permite a censura. Pode ser derivado heuristicamente, conforme indicado na maioria dos livros práticos. Mas também pode ser formalmente derivado como um estimador de probabilidade máxima (empírica). Aqui estão mais detalhes .S(t)=Pr(T>t)TS^

ocram
fonte