Função de probabilidade máxima para distribuição de tipo misto

11

Em geral, maximizamos uma função

eu(θ;x1,,xn)=Eu=1nf(xEuθ)

onde f é a função de densidade de probabilidade se a distribuição subjacente for contínua e uma função de massa de probabilidade (com soma em vez de produto) se a distribuição for discreta.

Como podemos especificar a função de probabilidade se a distribuição subjacente é uma mistura entre uma distribuição contínua e uma discreta, com os pesos de cada um dependendo de θ ?

bonifaz
fonte
2
O que exatamente não se aplica na sua opinião ..?
Tim
@ Tim, minha confusão resulta de não saber que a função de probabilidade tinha uma definição mais geral do que a definição padrão em probabilidades contínuas e discretas. Ou seja, meu pensamento foi o seguinte. A distribuição não é contínua nem discreta, portanto não pode ter uma função de probabilidade. Como não há função de probabilidade, o MLE não se aplica.
Gregorias
1
A distribuição não pode ser discreta nem contínua, como por exemplo, a distribuição Cantor e conforme observado pela probabilidade de Xi'an é definida em termos de funções de densidade de probabilidade, portanto, você só precisa do pdf da sua distribuição para definir a probabilidade.
Tim
@ Tim, estou ciente de que existem distribuições diferentes. Esse era o ponto que eu estava tentando fazer. Observe que probabilidade é um conceito mais geral que um pdf. Em particular, apenas variáveis ​​contínuas possuem pdf (exatamente essas distribuições o possuem). Por exemplo, a distribuição do Cantor mencionada não possui um pdf.
gregorias
Depende de como você define os pdfs, pmf pode ser considerado um caso especial de pdf. Você pode definir pdfs de distribuições discretas em termos de dirac delta etc., portanto, não é um problema que a distribuição seja do tipo discreto ou misto.
Tim

Respostas:

7

A função de verossimilhança é a densidade dos dados no valor observado x expresso como uma função de θ ( θ | x ) = f ( x | θ ) Essa densidade é definida para todos os valores (aceitáveis) de θ quase todo lugar sobre o suporte de x , X , contra uma medida específica sobre X que não depende de θ . Para qualquer família paramétrica, deve existir uma medida dominante em todos os θ(θ|x)xθ

(θ|x)=f(x|θ)
θxXXθθé, portanto, uma densidade, portanto, uma probabilidade.

Aqui está um trecho relevante da entrada da Wikipedia sobre funções de probabilidade (o estresse é meu):

Na teoria da probabilidade teórica da medida, a função densidade é definida como o derivado de Radon-Nikodym da distribuição de probabilidade em relação a uma medida dominante. Isso fornece uma função de probabilidade para qualquer modelo de probabilidade com todas as distribuições, sejam discretas, absolutamente contínuas, uma mistura ou qualquer outra coisa. (As probabilidades serão comparáveis, por exemplo, para estimativa de parâmetros, apenas se forem derivados de Radon-Nikodym com relação à mesma medida dominante.)

Xi'an
fonte
7

Admito que fiquei intrigado com essa questão já há algum tempo na minha carreira. Uma maneira de me convencer da resposta era adotar uma visão extremamente prática e aplicada da situação, uma visão que reconhece que nenhuma medida é perfeita. Vamos ver aonde isso pode levar.

O objetivo deste exercício é expor as suposições que podem ser necessárias para justificar a mistura um tanto simplista de densidades e probabilidades nas expressões de probabilidade. Destacarei, portanto, essas suposições onde quer que sejam introduzidas. Acontece que alguns são necessários, mas são bastante leves e cobrem todos os aplicativos que encontrei (o que obviamente será limitado, mas ainda inclui alguns).

O problema diz respeito a uma distribuição mista F, que não é absolutamente contínua nem singular. O Teorema da Decomposição de Lebesgue nos permite ver tal distribuição como uma mistura de uma distribuição absolutamente contínua (que por definição possui uma função de densidade fuma ) e uma singular ("discreta"), que possui uma função de massa de probabilidade fd. (Ignorarei a possibilidade de que um terceiro componente contínuo, mas não absolutamente contínuo, possa estar presente. Aqueles que usam esses modelos tendem a saber o que estão fazendo e geralmente têm todas as habilidades técnicas para justificá-los.)

Quando F=Fθ é um membro de uma família paramétrica de distribuições, podemos escrever

Fθ(x)=Fumaθ(x)+Fdθ(x)=xfuma(t;θ)dt+txfd(t;θ).

(A soma é no máximo contável, é claro.) Aqui, fuma(;θ) é uma função de densidade de probabilidade multiplicado por um coeficiente misturaλ(θ) efd(;θ) é uma função de massa de probabilidade multiplicada por1-λ(θ).

Vamos interpretar qualquer observação xEu em um conjunto de dados iid X=(x1,x2,,xn) como "realmente", o que significa que temos certo conhecimento de que um valor subjacente hipotético verdadeiro yEu encontra em um intervalo (xEu-δEu,xEu+ϵEu] circundam xEu, mas , caso contrário, não têm informações sobre yEu. Supondo que conheçamos todos os deltas e epsilons, isso não apresenta mais problemas para construir uma probabilidade, porque tudo pode ser expresso em termos de probabilidades:

eu(X;θ)=Eu(Fθ(xEu+ϵEu)-Fθ(xEu-δEu)).

Se o suporte de Fdθ não tem pontos de condensação em todo o xEu, a sua contribuição para a probabilidade irá reduzir a, no máximo, um termo único, desde que os ípsilons e deltas são feitos suficientemente pequeno: não haverá nenhuma contribuição quando xEu não está em seu apoio.

Se assumirmos que fuma(;θ) éLipschitz contínuoem todos os valores dos dados,entãouniformementenos tamanhos dos épsons e deltas podemos aproximar a parte absolutamente contínua deFθ(xEu) como

Fumaθ(xEu+ϵEu)-Fumaθ(xEu-δEu)=fuma(xEu;θ)(ϵEu+δEu)+o(|ϵEu+δEu|).

A uniformidade dessa aproximação significa que, à medida que levamos todos os epsilons e deltas para pequenos, todos os termos o() também ficam pequenos. Consequentemente, há um valor ϵ(θ)>0 0, pequeno ϵ ( θ ) > 0 , governado pelas contribuições de todos esses termos de erro, para os quais

L(X;θ)=i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).

Isso ainda é um pouco confuso, mas mostra para onde estamos indo. No caso de dados censurados, geralmente apenas uma parte de cada termo no produto será diferente de zero, porque esses modelos normalmente assumem que o suporte da parte singular da distribuição é separado da atualização da parte contínua, independentemente do o parâmetro θ pode ser. (Especificamente: fd(x)0 implica Fa(x+ϵ)Fa(xϵ)=o(ϵ).) Isso nos permite dividir o produto em duas partese podemos fatorar as contribuições de todos os intervalos da parte contínua:

L(X;θ)=(i=1k(ϵi+δi))i=1kfa(xi;θ) i=k+1nfd(xi;θ).

(Sem qualquer perda de generalidade, indexei os dados para que xi,i=1,2,,k contribuam para a parte contínua e, caso contrário, xi,i=k+1,k+2,,n contribuam para a parte singular da probabilidade.)

Essa expressão agora deixa claro que

Uma vez que as larguras de intervalo ϵi+δi são corrigidos, que não contribuem para a probabilidade (o qual é definido somente até algum múltiplo constante positiva).

Assim, podemos trabalhar com a expressão

L(X;θ)=i=1kfa(xi;θ) i=k+1nfd(xi;θ)

ao construir relações de probabilidade ou maximizar a probabilidade. A beleza desse resultado é que nunca precisamos saber os tamanhos dos intervalos finitos usados ​​nesta derivação: os épsons e os deltas desaparecem imediatamente. Precisamos apenas saber que podemos torná-los pequenos o suficiente para que a expressão de probabilidade com a qual trabalhamos seja uma aproximação adequada à expressão de probabilidade que usaríamos se soubéssemos o tamanho do intervalo.

whuber
fonte
1
Ótima resposta (+1). Uma sugestão para melhoria - no caso em que há suporte comum em um ponto (para que você não possa separar os termos discretos e contínuos na soma), o termo discreto domina totalmente o termo contínuo, portanto a probabilidade ignora o contínuo parte nesse ponto (configurando-o efetivamente para zero). Isso significa que, mesmo que exista um ponto com suporte comum, ele será tratado apenas como sendo a parte discreta e você obterá a mesma decomposição do produto que obtém aqui. (A menos que eu esteja faltando alguma coisa.)
Ben - Restabelece Monica
1
@ Ben Obrigado por esse comentário perspicaz. Eu preferiria evitar esse problema, porque estou um pouco preocupado com alguns casos "extremos" que possam surgir. O que alguém faria, por exemplo, onde se tornasse infinito em um dos pontos de apoio de f d ? fafd
whuber
1
Sim, isso ficaria espinhoso. Dodge entendeu!
Ben - Restabelece Monica
1
Eu adicionei uma resposta observando um aspecto adicional deste problema, onde ele acaba sendo resolvido mais facilmente ignorando a densidade contínua no suporte da parte discreta. Leia a minha resposta e veja se isso acrescenta alguma motivação adicional para lidar com esse aspecto do problema. (Minha intuição é que mesmo se se torna infinita em um ponto no suporte de f d ainda seria considerado para ser infinitamente menor do que a parte discreta.)fafd
Ben - Reintegrar Monica
6

Essa questão é um problema fundamental extremamente importante na análise de probabilidade e também muito sutil e difícil, por isso estou bastante surpreso com algumas das respostas superficiais que está recebendo nos comentários.

De qualquer forma, nesta resposta, acrescentarei apenas um pequeno ponto à excelente resposta do whuber (que eu acho que é a abordagem correta para esse problema). Esse ponto é que as funções de probabilidade neste contexto vêm de funções de densidade sobre uma medida dominante mista, e isso leva à propriedade interessante de que podemos dimensionar os tamanhos relativos da função de probabilidade arbitrariamente sobre as partes contínuas e discretas e ainda temos uma validade função de probabilidade . Isso gera uma questão óbvia de como podemos implementar técnicas de probabilidade quando não há uma função de probabilidade única.

Ilustrar esse ponto requer uma apresentação preliminar da densidade de amostragem como um derivado de Radon-Nikodym da medida de probabilidade, portanto, por favor, tenha paciência comigo. Primeiro, mostrarei como obter uma função de densidade para uma medida dominante mista e depois mostrarei por que isso leva à capacidade de dimensionar as partes contínuas e discretas da probabilidade à vontade. Por fim, discutirei as implicações desta questão na análise baseada em probabilidade e darei minha opinião sobre sua resolução. Eu acho que isso é essencialmente resolvido pelo método que o whuber apresenta em sua resposta, mas precisaria ser estendido na direção que discuti nos comentários dessa resposta, para garantir que cada ponto no suporte da parte discreta ignore a parte contínua nesse ponto.


Expressando a densidade usando uma medida dominante: A abordagem padrão para lidar com densidades mistas para variáveis ​​aleatórias reais é usar a medida de Lebesgue λLEB como a medida dominante para a parte contínua e a medida de contagem λCONTAGEM (acima de um conjunto contável especificado DR ) como a medida dominante para a parte discreta. Isso leva ao derivado Radon-Nikodym definido por:

P(XA|θ)=Af(x|θ) dλLEB(x)+Ap(x|θ) dλCOUNT(x).

(Observe que a última integral degenera até uma soma sobre os elementos xAD Nós a escrevemos aqui como uma integral para tornar mais clara a semelhança entre os dois termos.) Pode-se usar uma única densidade fazendo a medida λλLEB+λCOUNT e configuração:

f(x|θ)I(xD)f(x|θ)+I(xD)p(x|θ).

λ

P(XUMA|θ)=UMAf(x|θ) dλ(x).

fXxθeux(θ)f(x|θ)xθ


λαλLEB+βλCONTAGEMα>0 0β>0 0

f(x|θ)Eu(xD)αf(x|θ)+Eu(xD)βp(x|θ).

λ

P(XUMA|θ)=UMAf(x|θ) dλ(x).

Como no caso acima, podemos definir uma função de probabilidade válida eux(θ)f(x|θ)xθαβ


x1,...,xkDxk+1,...,xnD

eux(θ)=Eu=1neuxEu(θ)=Eu=1nf(xEu|θ)=(Eu=1k1αf(xEu|θ))(Eu=k+1n1βp(xEu|θ))=1αkβn-k(Eu=1kf(xEu|θ))(Eu=k+1np(xEu|θ))=1αkβn-kEu=1nf(xEu|θ)Eu=1nf(xEu|θ)=Eu=1neuxEu(θ)=eux(θ).

Isso mostra que as propriedades de escala da medida dominante afetam apenas a função de probabilidade através de uma constante de escala que pode ser ignorada nos problemas padrão do MLE. Observe que, no meu tratamento desse problema, essa propriedade útil ocorreu como resultado direto do fato de que a densidade de amostragem é definida de uma maneira que ignora a densidade contínua quando estamos no suporte da parte discreta. (Isso difere da resposta do whuber , onde ele permite uma combinação dessas partes. Acho que isso pode realmente levar a alguns problemas difíceis; veja meus comentários sobre essa resposta.)


Ben - Restabelecer Monica
fonte
3
+1. Acho que você fez um bom trabalho conectando minha explicação elementar à resposta teórica original da medida de @ Xi'an, levando-nos (muito informativamente) a um círculo completo.
whuber
3

Um exemplo em que isso ocorre, ou seja, a probabilidade dada por um modelo de probabilidade do tipo contínuo / discreto misto, é com dados censurados. Para um exemplo, consulte Regressão de erros normais ponderados com censura .

f(x;θ)λθx1,x2,,xnEuf(xEu;θ)

λ(0 0,)

kjetil b halvorsen
fonte