Em geral, maximizamos uma função
onde é a função de densidade de probabilidade se a distribuição subjacente for contínua e uma função de massa de probabilidade (com soma em vez de produto) se a distribuição for discreta.
Como podemos especificar a função de probabilidade se a distribuição subjacente é uma mistura entre uma distribuição contínua e uma discreta, com os pesos de cada um dependendo de ?
Respostas:
A função de verossimilhança é a densidade dos dados no valor observado x expresso como uma função de θ ℓ ( θ | x ) = f ( x | θ ) Essa densidade é definida para todos os valores (aceitáveis) de θ quase todo lugar sobre o suporte de x , X , contra uma medida específica sobre X que não depende de θ . Para qualquer família paramétrica, deve existir uma medida dominante em todos os θℓ(θ|x) x θ
Aqui está um trecho relevante da entrada da Wikipedia sobre funções de probabilidade (o estresse é meu):
fonte
Admito que fiquei intrigado com essa questão já há algum tempo na minha carreira. Uma maneira de me convencer da resposta era adotar uma visão extremamente prática e aplicada da situação, uma visão que reconhece que nenhuma medida é perfeita. Vamos ver aonde isso pode levar.
O objetivo deste exercício é expor as suposições que podem ser necessárias para justificar a mistura um tanto simplista de densidades e probabilidades nas expressões de probabilidade. Destacarei, portanto, essas suposições onde quer que sejam introduzidas. Acontece que alguns são necessários, mas são bastante leves e cobrem todos os aplicativos que encontrei (o que obviamente será limitado, mas ainda inclui alguns).
O problema diz respeito a uma distribuição mistaF, que não é absolutamente contínua nem singular. O Teorema da Decomposição de Lebesgue nos permite ver tal distribuição como uma mistura de uma distribuição absolutamente contínua (que por definição possui uma função de densidade fuma ) e uma singular ("discreta"), que possui uma função de massa de probabilidade fd. (Ignorarei a possibilidade de que um terceiro componente contínuo, mas não absolutamente contínuo, possa estar presente. Aqueles que usam esses modelos tendem a saber o que estão fazendo e geralmente têm todas as habilidades técnicas para justificá-los.)
QuandoF= Fθ é um membro de uma família paramétrica de distribuições, podemos escrever
(A soma é no máximo contável, é claro.) Aqui,fuma(; θ ) é uma função de densidade de probabilidade multiplicado por um coeficiente misturaλ ( θ ) efd(; θ ) é uma função de massa de probabilidade multiplicada por1 - λ ( θ ) .
Vamos interpretar qualquer observaçãoxEu em um conjunto de dados iid X= ( x1, x2, … , Xn) como "realmente", o que significa que temos certo conhecimento de que um valor subjacente hipotético verdadeiro yEu encontra em um intervalo ( xEu- δEu, xEu+ ϵEu] circundam xEu, mas , caso contrário, não têm informações sobre yEu. Supondo que conheçamos todos os deltas e epsilons, isso não apresenta mais problemas para construir uma probabilidade, porque tudo pode ser expresso em termos de probabilidades:
Se o suporte deFdθ não tem pontos de condensação em todo o xi, a sua contribuição para a probabilidade irá reduzir a, no máximo, um termo único, desde que os ípsilons e deltas são feitos suficientemente pequeno: não haverá nenhuma contribuição quando xi não está em seu apoio.
Se assumirmos quefa(;θ) éLipschitz contínuoem todos os valores dos dados,entãouniformementenos tamanhos dos épsons e deltas podemos aproximar a parte absolutamente contínua deFθ(xi) como
A uniformidade dessa aproximação significa que, à medida que levamos todos os epsilons e deltas para pequenos, todos os termoso() também ficam pequenos. Consequentemente, há um valor ϵ(θ)>0, pequeno ϵ ( θ ) > 0 , governado pelas contribuições de todos esses termos de erro, para os quais
Isso ainda é um pouco confuso, mas mostra para onde estamos indo. No caso de dados censurados, geralmente apenas uma parte de cada termo no produto será diferente de zero, porque esses modelos normalmente assumem que o suporte da parte singular da distribuição é separado da atualização da parte contínua, independentemente do o parâmetroθ pode ser. (Especificamente: fd(x)≠0 implica Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ). ) Isso nos permite dividir o produto em duas partese podemos fatorar as contribuições de todos os intervalos da parte contínua:
(Sem qualquer perda de generalidade, indexei os dados para quexi, i = 1 , 2 , … , k contribuam para a parte contínua e, caso contrário, xEu, i = k + 1 , k + 2 , … , n contribuam para a parte singular da probabilidade.)
Essa expressão agora deixa claro que
Assim, podemos trabalhar com a expressão
ao construir relações de probabilidade ou maximizar a probabilidade. A beleza desse resultado é que nunca precisamos saber os tamanhos dos intervalos finitos usados nesta derivação: os épsons e os deltas desaparecem imediatamente. Precisamos apenas saber que podemos torná-los pequenos o suficiente para que a expressão de probabilidade com a qual trabalhamos seja uma aproximação adequada à expressão de probabilidade que usaríamos se soubéssemos o tamanho do intervalo.
fonte
Essa questão é um problema fundamental extremamente importante na análise de probabilidade e também muito sutil e difícil, por isso estou bastante surpreso com algumas das respostas superficiais que está recebendo nos comentários.
De qualquer forma, nesta resposta, acrescentarei apenas um pequeno ponto à excelente resposta do whuber (que eu acho que é a abordagem correta para esse problema). Esse ponto é que as funções de probabilidade neste contexto vêm de funções de densidade sobre uma medida dominante mista, e isso leva à propriedade interessante de que podemos dimensionar os tamanhos relativos da função de probabilidade arbitrariamente sobre as partes contínuas e discretas e ainda temos uma validade função de probabilidade . Isso gera uma questão óbvia de como podemos implementar técnicas de probabilidade quando não há uma função de probabilidade única.
Ilustrar esse ponto requer uma apresentação preliminar da densidade de amostragem como um derivado de Radon-Nikodym da medida de probabilidade, portanto, por favor, tenha paciência comigo. Primeiro, mostrarei como obter uma função de densidade para uma medida dominante mista e depois mostrarei por que isso leva à capacidade de dimensionar as partes contínuas e discretas da probabilidade à vontade. Por fim, discutirei as implicações desta questão na análise baseada em probabilidade e darei minha opinião sobre sua resolução. Eu acho que isso é essencialmente resolvido pelo método que o whuber apresenta em sua resposta, mas precisaria ser estendido na direção que discuti nos comentários dessa resposta, para garantir que cada ponto no suporte da parte discreta ignore a parte contínua nesse ponto.
Expressando a densidade usando uma medida dominante: A abordagem padrão para lidar com densidades mistas para variáveis aleatórias reais é usar a medida de LebesgueλLEB como a medida dominante para a parte contínua e a medida de contagem λCONTAGEM (acima de um conjunto contável especificado D ⊂ R ) como a medida dominante para a parte discreta. Isso leva ao derivado Radon-Nikodym definido por:
(Observe que a última integral degenera até uma soma sobre os elementosx ∈ A∩ D Nós a escrevemos aqui como uma integral para tornar mais clara a semelhança entre os dois termos.) Pode-se usar uma única densidade fazendo a medida λ∗≡ λLEB+ λCONTAGEM e configuração:
Como no caso acima, podemos definir uma função de probabilidade válidaeu∗ ∗x( θ ) ∝ f∗ ∗( x | θ ) x θ α β
Isso mostra que as propriedades de escala da medida dominante afetam apenas a função de probabilidade através de uma constante de escala que pode ser ignorada nos problemas padrão do MLE. Observe que, no meu tratamento desse problema, essa propriedade útil ocorreu como resultado direto do fato de que a densidade de amostragem é definida de uma maneira que ignora a densidade contínua quando estamos no suporte da parte discreta. (Isso difere da resposta do whuber , onde ele permite uma combinação dessas partes. Acho que isso pode realmente levar a alguns problemas difíceis; veja meus comentários sobre essa resposta.)
fonte
Um exemplo em que isso ocorre, ou seja, a probabilidade dada por um modelo de probabilidade do tipo contínuo / discreto misto, é com dados censurados. Para um exemplo, consulte Regressão de erros normais ponderados com censura .
fonte