Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados.
Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de , ou seja, é registrado como ):
onde o número de valores é . Então, a probabilidade é supostamente dada por:
Eu apreciaria muito uma explicação / prova de por que isso é assim, principalmente porque o segundo fator é como é. Intuitivamente e matematicamente, se possível. Muito obrigado antecipadamente.
dataset
likelihood
Delvesy
fonte
fonte
Respostas:
O que você descreve necessidades de tratamento especial, não é o que costumamos dizer com "variáveis aleatórias truncados" -e o que costumamos dizer é que a variável aleatória que não variam fora do suporte truncado, o que significa que há não uma concentração de massa de probabilidade de o ponto de truncamento. Para contrastar casos:
A) Significado "usual" de um rv truncado[a,b] −∞<a<b<∞ f F
Para qualquer distribuição que truncarmos seu suporte, devemos "corrigir" sua densidade para que ela se integre à unidade quando integrada sobre o suporte truncado. Se a variável tiver suporte em , , então (pdf , cdf )- ∞ < a < b < ∞ f F
Como o LHS é parte integrante do suporte truncado, vemos que a densidade do rv truncado, chamado , deve serX~
[ a , M ] n n
B) Concentração de massa de probabilidadeM M
Aqui, que é o que você descreve na pergunta, as coisas são diferentes. O ponto concentra toda a massa de probabilidade que corresponde ao suporte da variável mais elevada do que . Isso cria um ponto de descontinuidade na densidade e faz com que ela tenha dois ramosM
Informalmente, o segundo é "como um rv discreto", em que cada ponto na função de massa de probabilidade representa probabilidades reais. Agora, suponha que não possuamos tais variáveis aleatórias e queremos formar sua função de densidade / probabilidade conjunta. Antes de analisar a amostra real, qual ramo devemos escolher? Não podemos tomar essa decisão, por isso temos que, de alguma forma, incluir as duas. Para fazer isso, precisamos usar funções indicadoras: denotar a função indicadora que assume o valor quando e caso contrário. A densidade de tal rv pode ser escritaI { x * ≥ H } ≡ I ≥ M ( X * ) 1 x * ≥ H 0n I{x∗≥M}≡I≥M(x∗) 1 x∗≥M 0
n
Agora, o exposto acima como uma função de probabilidade, a amostra real consistindo em realizações dessas variáveis aleatórias entra em jogo. E nesta amostra, algumas realizações observadas serão inferiores ao limiar , outras iguais. Denotam o número de realizações da amostra que é igual a , e tudo o resto, . É imediato que, para as realizações, a parte correspondente da densidade que permanecerá na probabilidade seja a parte , enquanto para as realizações, a outra parte. Entãon M m M v m+v=n m P(X∗i≥M) v
fonte
A teoria da probabilidade é uma estrutura bastante geral. A maioria dos livros declara resultados para os casos separados de r.vs contínuos e para os casos r.vs. No entanto, casos mistos ocorrem na prática, como é o caso aqui.
Para um rv discreto , a probabilidade de uma observação é definida como a probabilidade de obter o valor observado , digamos . Para um rv contínuo, a probabilidade é geralmente definida como a densidade em , digamos . No entanto, na prática, só se sabe que - devido a uma precisão de medição limitada e deve ser usado como probabilidade. Tomando , comA a a pA(a) L x fX(x) xL<X<xU Pr{xL<X<xU} xL:=x−dx/2 xU:=x+dx/2 dx pequeno, obtemos até um multiplicador que não importa. Portanto, a definição usual pode ser vista como assumindo implicitamente uma precisão infinita na observação.fX(x) dx
Para alguns r.vs e com tipo de junta mista discreta / contínua, a probabilidade será a distribuição da junta, que geralmente é expressa usando distribuições condicionais, por exemplo, Assim, para um intervalo com tamanho pequeno , é vezes a densidade de condicional em , digamosA X
Agora, voltemos ao seu exemplo e consideremos apenas uma observação. Então é um Bernoulli com probabilidade de sucesso . Dependendo ou não, ou você observar única ou você observar ambos e o valor de . Nos dois casos, você usa a fórmula acima, mas é tomada como ou como um intervalo de tamanho pequeno contendo . Na verdade, isso dáA=1{X>M} Pr{X>M} X>M A=1 A=0 x X (xL,xU) (M,∞) dx x
fonte