Distribuição assintótica de amostras censuradas de

8

Seja a estatística de ordem de uma amostra iid do tamanho de . Suponha que os dados sejam censurados, de modo que apenas vejamos a parte superior por cento dos dados, ou seja,Coloque , qual é a distribuição assintótica de X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Isso está um pouco relacionado a essa questão e a isso e também marginalmente a essa questão.

Qualquer ajuda seria apreciada. Tentei abordagens diferentes, mas não consegui progredir muito.

eles
fonte
Pode-se mostrar que, condicionado em , vetor é distribuído como uma estatística de ordem das de iid de (com conforme definido na pergunta, ou seja, ), portanto portanto, no limite , recuperamos o CLT devido à independência de , este parece ser o caminho certo, mas Eu não sou capaz de aprofundar esse argumento e encontrar assintótico para .. . ( X ( m + 1 ) - X ( m ) , , X ( n ) - X ( m ) | X ( m ) ) { Y i } n -X(m)(X(m+1)X(m),,X(n)X(m)|X(m)) exp(1)mm=pn1{Yi}1nmexp(1)mm=pnnYi(X(m),11mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i)nYi(X(m),1mni=m+1nX(i))
eles
2
Para OP: Por que você se refere à sua amostra como sendo censurada? O termo censurado indica que os valores abaixo do ponto de censura são registrados como 0, ou registrados no ponto de censura, etc. Mas não é isso que você está fazendo ... você os está descartando, o que não é censura ... é mais como truncá-los. E já que você está considerando a distribuição assintótica e considerando grande, por que você se preocupa em solicitar primeiro a amostra e truncar a amostra solicitada ??? Por que não considerar simplesmente uma distribuição exponencial truncada, truncada abaixo em p% e depois somar os termos? n
wolfies
@ Wolfies, corrigi todos os erros de digitação que você apontou. Vou analisar a distribuição truncada . Em relação à censura, eu apaguei a nota. No entanto, algumas fontes que eu olhei referem-se a problema semelhante como tipo II censurar topo da página 6 aqui
eles
1
@ isso é terminologia não padrão, tanto quanto eu sei. Você deve usar um modelo truncado aqui.
shadowtalker

Respostas:

2

Como é apenas um fator de escala, sem perda de generalidade, escolha unidades de medida que , tornando a função de distribuição subjacente com densidade .λ = 1 F (λλ=1f ( x ) = exp ( - x )F(x)=1exp(x)f(x)=exp(x)

A partir de considerações paralelas às do teorema do limite central para medianas da amostra , é assintoticamente normal com média e variância F - 1 ( p ) = - log ( 1 - p )X(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

Devido à propriedade sem memória da distribuição exponencial , as variáveis agem como as estatísticas de ordem de uma amostra aleatória de extraída de , para a qual foi adicionado. Escrita(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

para sua média, é imediato que a média de seja a média de (igual a ) e a variação de seja vezes a variação de (também igual a ). O Teorema do Limite Central implica que o padronizado é assintoticamente padrão normal. Além disso, porque é condicionalmente independente de , que ao mesmo tempo tem a versão padronizada de tornar-se assintoticamente padrão normal e não correlacionada com . Isso é,F 1 Y 1 / ( n - m ) F 1 YYF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

tem assintoticamente uma distribuição normal padrão bivariada.


Os gráficos relatam dados simulados para amostras de ( iterações) . Um traço de assimetria positiva permanece, mas a abordagem da normalidade bivariada é evidente na falta de relação entre e e a proximidade dos histogramas à densidade normal padrão (mostrada em pontos vermelhos). 500 p = 0,95 Y - X ( m ) X ( m )n=1000500p=0.95YX(m)X(m)Figura

A matriz de covariância dos valores padronizados (como na fórmula ) para esta simulação foi confortavelmente perto da matriz de unidades que ela se aproxima.( 0,967 - 0,021 - 0,021 1,010 ) ,(1)

(0.9670.0210.0211.010),

O Rcódigo que produziu esses gráficos é prontamente modificado para estudar outros valores de , tamanho da simulação.pnp

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
whuber
fonte