Função de probabilidade de dados truncados

8

Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados.

Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de , ou seja, é registrado como ):Mxi>MM

x1,x2,M,x3,M,x4,x5,...,x10

onde o número de valores é . Então, a probabilidade é supostamente dada por:Mm

L(x;θ)=i=110f(xi;θ)[P(X>M)]m

Eu apreciaria muito uma explicação / prova de por que isso é assim, principalmente porque o segundo fator é como é. Intuitivamente e matematicamente, se possível. Muito obrigado antecipadamente.

Delvesy
fonte
O que é " " minúsculo ? m
Alecos Papadopoulos
É o número de ocorrências de .. ou seja, observei pontos de dados, dos quais não são truncados, e deles são (observo essas picaretas, todas com valor )10 + m 10 m m MM10+m10mmM
Delvesy
2
Como o @Alecos aponta, você está usando "truncado" idiossincraticamente. "Censurado" é o termo usual.
Scortchi - Restabelece Monica
Alguns outros termos que você pode pesquisar: "efeitos teto / piso", "regressão beta" e "modelos inflados a zero".
DWin

Respostas:

8

O que você descreve necessidades de tratamento especial, não é o que costumamos dizer com "variáveis aleatórias truncados" -e o que costumamos dizer é que a variável aleatória que não variam fora do suporte truncado, o que significa que há não uma concentração de massa de probabilidade de o ponto de truncamento. Para contrastar casos:

A) Significado "usual" de um rv truncado
Para qualquer distribuição que truncarmos seu suporte, devemos "corrigir" sua densidade para que ela se integre à unidade quando integrada sobre o suporte truncado. Se a variável tiver suporte em , , então (pdf , cdf )- < a < b < f F[a,b]<a<b<fF

abfX(x)dx=aMfX(x)dx+MbfX(x)dx=aMfX(x)dx+[1FX(M)]=1

aMfX(x)dx=FX(M)

Como o LHS é parte integrante do suporte truncado, vemos que a densidade do rv truncado, chamado , deve serX~

[ a , M ] n n

fX~(x~)=fX(xXM)=fX(x)dx[FX(M)]1
para que integra-se à unidade sobre . O termo do meio na expressão acima nos faz pensar nessa situação (com razão) como uma forma de condicionamento - mas não em outra variável aleatória, mas nos possíveis valores que o próprio RV pode assumir. Aqui, a função densidade / probabilidade conjunta de uma coleção de IDI truncados seria vezes a densidade acima, como de costume.[a,M]nn

B) Concentração de massa de probabilidade
Aqui, que é o que você descreve na pergunta, as coisas são diferentes. O ponto concentra toda a massa de probabilidade que corresponde ao suporte da variável mais elevada do que . Isso cria um ponto de descontinuidade na densidade e faz com que ela tenha dois ramosMM M

fX(x)=fX(x)x<MfX(x)=P(XM)xM

Informalmente, o segundo é "como um rv discreto", em que cada ponto na função de massa de probabilidade representa probabilidades reais. Agora, suponha que não possuamos tais variáveis ​​aleatórias e queremos formar sua função de densidade / probabilidade conjunta. Antes de analisar a amostra real, qual ramo devemos escolher? Não podemos tomar essa decisão, por isso temos que, de alguma forma, incluir as duas. Para fazer isso, precisamos usar funções indicadoras: denotar a função indicadora que assume o valor quando e caso contrário. A densidade de tal rv pode ser escritaI { x *H } I M ( X * ) 1 x *H 0nI{xM}IM(x)1xM0

n

fX(x)=fX(x)[1IM(x)]+P(XM)IM(x)
e, portanto, a função de densidade conjunta de tais variáveis ​​iid én

fX(Xθ)=i=1n[fX(xi)[1IM(xi)]+P(XiM)IM(xi)]

Agora, o exposto acima como uma função de probabilidade, a amostra real consistindo em realizações dessas variáveis ​​aleatórias entra em jogo. E nesta amostra, algumas realizações observadas serão inferiores ao limiar , outras iguais. Denotam o número de realizações da amostra que é igual a , e tudo o resto, . É imediato que, para as realizações, a parte correspondente da densidade que permanecerá na probabilidade seja a parte , enquanto para as realizações, a outra parte. EntãonMmMvm+v=nmP(XiM)v

L(θ{xi;i=1,...n})=i=1v[fX(xi)]j=1m[P(XjM)]=i=1v[fX(xi)][P(XM)]m
Alecos Papadopoulos
fonte
Obrigado. Eu aprecio muito a resposta. Eu acho que meu problema principal é o primeiro ponto na seção b) ... ou seja, como o "segundo ramo" do pdf é definido. É um pmf discreto e não define realmente um pdf a partir da definição de um pdf. Esta seção poderia ser explicada mais detalhadamente? Muito obrigado.
Delvesy
Essas variáveis ​​aleatórias são chamadas de "tipo misto", ou seja, são parcialmente contínuas e parcialmente discretas. Intuitivamente, faz sentido, como mostram suas perguntas. Para um tratamento rigoroso, procure "variáveis ​​aleatórias de tipo misto" ou "distribuições de tipo misto". NÃO os confunda com "misturas".
Alecos Papadopoulos
4

A teoria da probabilidade é uma estrutura bastante geral. A maioria dos livros declara resultados para os casos separados de r.vs contínuos e para os casos r.vs. No entanto, casos mistos ocorrem na prática, como é o caso aqui.

Para um rv discreto , a probabilidade de uma observação é definida como a probabilidade de obter o valor observado , digamos . Para um rv contínuo, a probabilidade é geralmente definida como a densidade em , digamos . No entanto, na prática, só se sabe que - devido a uma precisão de medição limitada e deve ser usado como probabilidade. Tomando , comAaapA(a)LxfX(x)xL<X<xUPr{xL<X<xU}xL:=xdx/2xU:=x+dx/2dxpequeno, obtemos até um multiplicador que não importa. Portanto, a definição usual pode ser vista como assumindo implicitamente uma precisão infinita na observação.fX(x)dx

Para alguns r.vs e com tipo de junta mista discreta / contínua, a probabilidade será a distribuição da junta, que geralmente é expressa usando distribuições condicionais, por exemplo, Assim, para um intervalo com tamanho pequeno , é vezes a densidade de condicional em , digamosAX

L:=Pr{A=a,xL<X<xU}=Pr{A=a}×Pr{xL<X<xU|A=a}.
(xL,xU)dxLpA(a)X{A=a}fX|A(x|a). Novamente, omitimos o termo .dx

Agora, voltemos ao seu exemplo e consideremos apenas uma observação. Então é um Bernoulli com probabilidade de sucesso . Dependendo ou não, ou você observar única ou você observar ambos e o valor de . Nos dois casos, você usa a fórmula acima, mas é tomada como ou como um intervalo de tamanho pequeno contendo . Na verdade, isso dá A=1{X>M}Pr{X>M}X>MA=1A=0xX(xL,xU)(M,)dxx

L={Pr{X>M}×1if X>M i.e. A=1,Pr{XM}×fX|A(x|a)dxif XM i.e. A=0.
Como , a probabilidade é simplesmente no segundo caso e obtemos a probabilidade alegada, até o termo para uma observação com precisão infinita. Quando observações independentes e são feitas, a probabilidade é obtida como o produto das probabilidades marginais que levam à expressão na pergunta.f X ( x )fX|A(x|0)=fX(x)/Pr{XM}d x A i X ifX(x)dxdxAiXi
Yves
fonte