Função de probabilidade de dados truncados

Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados.

Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de , ou seja, é registrado como ): $M$ $x_{i}>M$ $M$

$x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10}$

onde o número de valores é . Então, a probabilidade é supostamente dada por: $M$ $m$

$L(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m}$

Eu apreciaria muito uma explicação / prova de por que isso é assim, principalmente porque o segundo fator é como é. Intuitivamente e matematicamente, se possível. Muito obrigado antecipadamente.

dataset likelihood Delvesy
fonte

O que é " " minúsculo ?

m

$m$

Alecos Papadopoulos

É o número de ocorrências de .. ou seja, observei pontos de dados, dos quais não são truncados, e deles são (observo essas picaretas, todas com valor )

M

$M$

10 + m

$10 + m$

10

$10$

m

$m$

m

$m$

M

$M$

Delvesy

Como o @Alecos aponta, você está usando "truncado" idiossincraticamente. "Censurado" é o termo usual.

Scortchi - Restabelece Monica

Alguns outros termos que você pode pesquisar: "efeitos teto / piso", "regressão beta" e "modelos inflados a zero".

DWin

Respostas:

O que você descreve necessidades de tratamento especial, não é o que costumamos dizer com "variáveis aleatórias truncados" -e o que costumamos dizer é que a variável aleatória que não variam fora do suporte truncado, o que significa que há não uma concentração de massa de probabilidade de o ponto de truncamento. Para contrastar casos:

A) Significado "usual" de um rv truncado
Para qualquer distribuição que truncarmos seu suporte, devemos "corrigir" sua densidade para que ela se integre à unidade quando integrada sobre o suporte truncado. Se a variável tiver suporte em , , então (pdf , cdf ) $[a,b]$ $-\infty < a < b < \infty$ $f$ $F$

\int_{a}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + \int_{M}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + [1 - F_{X} (M)] = 1

$\int_a^bf_X(x)dx = \int_a^Mf_X(x)dx+\int_M^bf_X(x)dx = \int_a^Mf_X(x)dx + \left[1-F_X(M)\right]=1$

\Rightarrow \int_{a}^{M} f_{X} (x) d x = F_{X} (M)

$\Rightarrow \int_a^Mf_X(x)dx = F_X(M)$

Como o LHS é parte integrante do suporte truncado, vemos que a densidade do rv truncado, chamado , deve ser $\tilde X$

f_{\tilde{X}} (\tilde{x}) = f_{X} (x ∣ X \leq M) = f_{X} (x) d x \cdot {[F_{X} (M)]}^{- 1}

$f_{\tilde X}(\tilde x) = f_{X}(x\mid X\le M)=f_X(x)dx\cdot \left[F_X(M)\right]^{-1}$ para que integra-se à unidade sobre . O termo do meio na expressão acima nos faz pensar nessa situação (com razão) como uma forma de condicionamento - mas não em outra variável aleatória, mas nos possíveis valores que o próprio RV pode assumir. Aqui, a função densidade / probabilidade conjunta de uma coleção de IDI truncados seria vezes a densidade acima, como de costume.

[a, M]

$[a, M]$

n

$n$

n

$n$

B) Concentração de massa de probabilidade
Aqui, que é o que você descreve na pergunta, as coisas são diferentes. O ponto concentra toda a massa de probabilidade que corresponde ao suporte da variável mais elevada do que . Isso cria um ponto de descontinuidade na densidade e faz com que ela tenha dois ramos $M$ $M$

\begin{aligned} f_{X^{*}} (x^{*}) & = f_{X} (x^{*}) x^{*} < M \\ f_{X^{*}} (x^{*}) & = P (X^{*} \geq M) x^{*} \geq M \end{aligned}

$\begin{align} f_{X^*}(x^*) &= f_X(x^*) \qquad x^*<M\\ f_{X^*}(x^*) &= P(X^* \ge M) \qquad x^*\ge M\\ \end{align}$

Informalmente, o segundo é "como um rv discreto", em que cada ponto na função de massa de probabilidade representa probabilidades reais. Agora, suponha que não possuamos tais variáveis aleatórias e queremos formar sua função de densidade / probabilidade conjunta. Antes de analisar a amostra real, qual ramo devemos escolher? Não podemos tomar essa decisão, por isso temos que, de alguma forma, incluir as duas. Para fazer isso, precisamos usar funções indicadoras: denotar a função indicadora que assume o valor quando e caso contrário. A densidade de tal rv pode ser escrita $n$ $I\{x^*\ge M\}\equiv I_{\ge M}(x^*)$ $1$ $x^*\ge M$ $0$

f_{X^{*}} (x^{*}) = f_{X} (x^{*}) \cdot [1 - I_{\geq M} (x^{*})] + P (X^{*} \geq M) \cdot I_{\geq M} (x^{*})

$f_{X^*}(x^*) = f_X(x^*)\cdot \left[1-I_{\ge M}(x^*)\right]+P(X^* \ge M)\cdot I_{\ge M}(x^*)$ e, portanto, a função de densidade conjunta de tais variáveis iid é

n

$n$

f_{X^{*}} (X^{*} ∣ θ) = \prod_{i = 1}^{n} [f_{X} (x_{i}^{*}) \cdot [1 - I_{\geq M} (x_{i}^{*})] + P (X_{i}^{*} \geq M) \cdot I_{\geq M} (x_{i}^{*})]

$f_{X^*}(\mathbf X^*\mid \theta) = \prod_{i=1}^n\Big[f_X(x^*_i)\cdot \left[1-I_{\ge M}(x^*_i)\right]+P(X^*_i \ge M)\cdot I_{\ge M}(x^*_i)\Big]$

Agora, o exposto acima como uma função de probabilidade, a amostra real consistindo em realizações dessas variáveis aleatórias entra em jogo. E nesta amostra, algumas realizações observadas serão inferiores ao limiar , outras iguais. Denotam o número de realizações da amostra que é igual a , e tudo o resto, . É imediato que, para as realizações, a parte correspondente da densidade que permanecerá na probabilidade seja a parte , enquanto para as realizações, a outra parte. Então $n$ $M$ $m$ $M$ $v$ $m+v=n$ $m$ $P(X^*_i \ge M)$ $v$

\begin{aligned} L (θ ∣ {x_{i}^{*}; i = 1, . . . n}) & = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot \prod_{j = 1}^{m} [P (X_{j}^{*} \geq M)] \\ = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot [P (X^{*} \geq M)]^{m} \end{aligned}

$\begin{align} L(\theta\mid \{x_i^*;\,i=1,...n\})&= \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \prod_{j=1}^m\Big[P(X^*_j \ge M)\Big] \\& = \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \Big[P(X^* \ge M)\Big]^m\\ \end{align}$

Alecos Papadopoulos
fonte

Obrigado. Eu aprecio muito a resposta. Eu acho que meu problema principal é o primeiro ponto na seção b) ... ou seja, como o "segundo ramo" do pdf é definido. É um pmf discreto e não define realmente um pdf a partir da definição de um pdf. Esta seção poderia ser explicada mais detalhadamente? Muito obrigado.

Delvesy

Essas variáveis aleatórias são chamadas de "tipo misto", ou seja, são parcialmente contínuas e parcialmente discretas. Intuitivamente, faz sentido, como mostram suas perguntas. Para um tratamento rigoroso, procure "variáveis aleatórias de tipo misto" ou "distribuições de tipo misto". NÃO os confunda com "misturas".

Alecos Papadopoulos

A teoria da probabilidade é uma estrutura bastante geral. A maioria dos livros declara resultados para os casos separados de r.vs contínuos e para os casos r.vs. No entanto, casos mistos ocorrem na prática, como é o caso aqui.

Para um rv discreto , a probabilidade de uma observação é definida como a probabilidade de obter o valor observado , digamos . Para um rv contínuo, a probabilidade é geralmente definida como a densidade em , digamos . No entanto, na prática, só se sabe que - devido a uma precisão de medição limitada e deve ser usado como probabilidade. Tomando , com $A$ $a$ $a$ $p_A(a)$ $L$ $x$ $f_X(x)$ $x_{\textrm{L}} < X < x_{\textrm{U}}$ $\Pr\left\{x_{\textrm{L}} < X < x_{\textrm{U}}\right\}$ $x_{\textrm{L}}:= x - \textrm{d}x/2$ $x_{\textrm{U}}:= x + \textrm{d}x/2$ $\mathrm{d}x$ pequeno, obtemos até um multiplicador que não importa. Portanto, a definição usual pode ser vista como assumindo implicitamente uma precisão infinita na observação. $f_X(x)$ $\mathrm{d}x$

Para alguns r.vs e com tipo de junta mista discreta / contínua, a probabilidade será a distribuição da junta, que geralmente é expressa usando distribuições condicionais, por exemplo, Assim, para um intervalo com tamanho pequeno , é vezes a densidade de condicional em , digamos $A$ $X$

L := Pr {A = a, x_{L} < X < x_{U}} = Pr {A = a} \times Pr {x_{L} < X < x_{U} | A = a} .

$L := \textrm{Pr}\left\{ A = a, \, x_{\textrm{L}} < X < x_{\textrm{U}} \right\} = \textrm{Pr}\left\{ A = a \right\} \times \textrm{Pr} \left\{x_{\textrm{L}} < X < x_{\textrm{U}} \, \vert\, A = a\right\}.$

(x_{L}, x_{U})

$(x_{\textrm{L}},\, x_{\textrm{U}})$

d x

$\textrm{d}x$

L

$L$

p_{A} (a)

$p_A(a)$

X

$X$

{A = a}

$\{A=a\}$

f_{X | A} (x | a)

$f_{X \vert A}(x \,\vert \,a)$ . Novamente, omitimos o termo .

d x

$\mathrm{d}x$

Agora, voltemos ao seu exemplo e consideremos apenas uma observação. Então é um Bernoulli com probabilidade de sucesso . Dependendo ou não, ou você observar única ou você observar ambos e o valor de . Nos dois casos, você usa a fórmula acima, mas é tomada como ou como um intervalo de tamanho pequeno contendo . Na verdade, isso dá $A = 1_{\{X > M\}}$ $\Pr\{X > M\}$ $X > M$ $A = 1$ $A = 0$ $x$ $X$ $(x_{\textrm{L}},\, x_{\textrm{U}})$ $(M,\,\infty)$ $\textrm{d}x$ $x$

L = {\begin{cases} Pr {X > M} \times 1 & if X > M i.e. A = 1, \\ Pr {X \leq M} \times f_{X | A} (x | a) d x & if X \leq M i.e. A = 0. \end{cases}

$L = \begin{cases} \textrm{Pr} \left\{X > M \right\} \times 1 & \textrm{if } X > M \textrm{ i.e. } A =1,\\ \textrm{Pr} \left\{X \leq M\right\} \times f_{X \vert A}(x \,\vert \,a)\,\textrm{d}x & \textrm{if } X \leq M \textrm{ i.e. } A = 0. \end{cases}$ Como , a probabilidade é simplesmente no segundo caso e obtemos a probabilidade alegada, até o termo para uma observação com precisão infinita. Quando observações independentes e são feitas, a probabilidade é obtida como o produto das probabilidades marginais que levam à expressão na pergunta.

f_{X | A} (x | 0) = f_{X} (x) / Pr {X \leq M}

$f_{X \vert A}(x \,\vert \,0) = f_X(x) / \textrm{Pr} \left\{ X \leq M \right\}$

f_{X} (x) d x

$f_X(x)\,\textrm{d}x$

d x

$\mathrm{d}x$

A_{i}

$A_i$

X_{i}

$X_i$

Yves
fonte