Existe um intervalo de confiança não paramétrico confiável para a média de uma distribuição distorcida?

30

Distribuições muito distorcidas, como o log-normal, não resultam em intervalos precisos de confiança na inicialização. Aqui está um exemplo que mostra que as áreas da cauda esquerda e direita estão longe do valor ideal de 0,025, independentemente do método de inicialização que você tenta no R:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

O resultado está abaixo:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

Para os bootstraps únicos ainda não fornecem cobertura adequadamente precisa:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

A probabilidade empírica também falha em fornecer intervalos de confiança precisos ao coletar amostras da distribuição lognormal.

Existe uma abordagem de uso geral lá fora, que não depende de conhecer a distribuição antecipadamente? Alguém tentou obter intervalos de confiança para a média ajustando os dados à distribuição generalizada Tukey (essa distribuição é altamente flexível)? Que tal usar faixas de confiança Kolmogorov-Smirnov para o CDF? A computação da média nos limites superior e inferior do CDF seria terrivelmente conservadora? Eu aceitaria algum conservadorismo se um método tivesse ampla aplicabilidade.λ

Para reafirmar os objetivos, estou buscando uma abordagem geralmente aplicável para obter um intervalo de confiança para uma população com um tamanho tal que

  1. o intervalo é assimétrico se a distribuição de dados brutos for assimétrica
  2. o intervalo tem cobertura correta em ambas as caudas (por exemplo, probabilidade de erro de 0,025 em ambas)
  3. o procedimento não exige que o analista especifique nada sobre a distribuição subjacente ou a transformação necessária para tornar a distribuição simétrica

Observe que o teorema do limite central é irrelevante aqui; Eu tenho um tamanho de amostra pequeno fixo e o intervalo de confiança deve ser assimétrico para ser preciso nas duas caudas. O paramétrico baseados intervalo de confiança sob um modelo lognormal com e ainda tem má cobertura (erro cauda esquerda 0,012, certo 0,047 quando ambos devem estar 0,025).tμ=0,σ=1.65n=20000

Continuando a pensar sobre isso, há duas maneiras amplas de conceituar o problema que eu gostaria de discutir.

  1. A média não é uma quantidade que se presta a inferência não paramétrica, pelo menos quando a exatidão da inferência é necessária. A mediana da amostra é significativa para qualquer distribuição contínua e temos um intervalo de confiança exato e simples para a mediana. Em uma amostra de tamanho de uma distribuição normal, o intervalo de confiança para a mediana é maior que o intervalo de confiança exato baseado em para a média (consulte o código abaixo). Talvez esse fator de 1,28 seja um preço razoável a pagar pela robustez e completa liberdade distributiva.n=201.28×t
  2. Embora nenhum bootstrap único forneça limites de confiança adequadamente precisos para amostras de distribuições extremamente distorcidas, o bootstrap duplo pode melhorar significativamente a cobertura de confiança nas duas caudas. Nankervis tem alguns bons resultados e fornece um excelente algoritmo computacional. Mas nenhum software que eu encontrei implementa isso.

Código R ilustrativo 1. acima:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)
Frank Harrell
fonte
11
Isso é computacionalmente intensivo, mas e se você pegasse o cdf empírico, começasse a gerar pontes brownianas aleatoriamente; cada ponte browniana representa o delta entre o ecdf e algum cdf hipotético. Calcule a média usando o cdf hipotético e pese-o pelo fator prescrito pelo teste KS. Repetindo isso por um tempo, você terá um conjunto de dados ponderado de médias e poderá calcular o intervalo de confiança.
Nir Friedman
Eu não tenho um cdf hipotético. E o que aconteceria se você apenas usasse a região de confiança superior e inferior de 0,95 do KS e calculasse a média a partir deles, ou seja, isso seria terrivelmente conservador.
Frank Harrell
O cdf hipotético é introduzido adicionando uma ponte browniana gerada aleatoriamente ao cdf empírico. Além disso, não estou sugerindo tirar a média da região de confiança. Estou sugerindo obter muitos meios, gerando muitas distribuições hipotéticas, adequadamente ponderadas e, em seguida, obtendo o intervalo de confiança. É basicamente apenas uma abordagem diferente do bootstrap, acho que o resultado pode ser diferente.
Nir Friedman
Seria interessante ver com que eficiência ele poderia ser programado e quão precisa é a cobertura do intervalo de confiança. Obrigado pela sugestão. Gostaria de saber se o bootstrap bayesiano imitaria isso. Eu tentei o bootstrap bayesiano em outro contexto e não melhorou a cobertura do intervalo de confiança.
Frank Harrell

Respostas:

11

Sou um tanto pessimista quanto a esse método não paramétrico, pelo menos sem a introdução de algum tipo de restrição na distribuição subjacente.

Meu raciocínio para isso é que sempre haverá uma distribuição que rompe a verdadeira probabilidade de cobertura para qualquer finito (embora como , essa distribuição se torne cada vez mais patológica), ou o intervalo de confiança terá que ser arbitrariamente ampla.n nn

Para ilustrar, você pode imaginar uma distribuição que parece normal até algum valor , mas depois que se torna extremamente inclinado à direita. Isso pode ter influência ilimitada na média da distribuição e, à medida que você empurra o máximo possível, isso pode ter uma probabilidade arbitrariamente pequena de chegar à sua amostra. Então, você pode imaginar que, para qualquer , você pode escolher um tão grande que todos os pontos da sua amostra têm uma probabilidade extremamente alta de parecer que vem de uma distribuição normal com média = 0, sd = 1, mas você pode também tem qualquer média verdadeira.α α n ααααnα

Portanto, se você está procurando uma cobertura assintótica adequada , é claro que isso pode ser alcançado pela CLT. No entanto, sua pergunta implica que você está (razoavelmente) interessado na cobertura finita. Como meu exemplo mostra, sempre haverá um caso patológico que arruina qualquer CI de comprimento finito.

Agora, você ainda pode ter um IC não paramétrico que atinja uma boa cobertura finita adicionando restrições à sua distribuição. Por exemplo, a restrição log-côncava é uma restrição não paramétrica. No entanto, parece inadequado para o seu problema, pois o log-normal não é log-côncavo.

Talvez para ajudar a ilustrar a dificuldade do seu problema, fiz um trabalho não publicado com uma restrição diferente: convexa inversa (se você clicar no meu perfil, tenho um link para uma página pessoal com uma pré-impressão). Essa restrição inclui a maioria , mas nem todos os log-normais. Você também pode ver que, para essa restrição, as caudas podem ser "arbitrariamente pesadas", ou seja, para qualquer distribuição convexa inversa até alguns , você pode ter caudas pesadas o suficiente para que a média seja tão grande quanto você desejar.α

Cliff AB
fonte
2
Excelentes pensamentos. Hesito em exigir esses tipos de restrições, porque vejo distribuições bimodais e outras complexidades com bastante frequência.
Frank Harrell
11
@FrankHarrell: foram feitos trabalhos com modelos de mistura com componentes côncavos não paramétricos. No entanto, não posso imaginar neste momento que haja bons métodos para criar confiança para a média geral, especialmente se o número de componentes não for conhecido antecipadamente.
Cliff AB
2

Uma das premissas subjacentes de qualquer amostra é a representatividade. Quanto mais longas as caudas de uma distribuição, menor a probabilidade de que uma amostra pequena seja representativa o suficiente para que qualquer método resolva com segurança o IC, porque a amostra não poderá representar a distribuição.

Por exemplo, executar um perc CI simples em uma distribuição exponencial com um tamanho de amostra de 250 produz resultados bastante aceitáveis. Eles são muito melhores do que um com uma amostra de 25, embora ainda não seja o ideal.

Eu concordo com a Cliff AB de que não haverá uma solução geral, mas você não precisa criar hipóteses de distribuições extremas. Não haverá nada que funcione amplamente com pequenas amostras. E, em alguns casos, as amostras podem ter que ser muito grandes (mas seria bom estar errado).

John
fonte