Intervalos de confiança para ECDF

8

A desigualdade de Dvoretzky-Kiefer-Wolfowitz é a seguinte:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2) ,

e prediz quão perto uma função de distribuição determinada empiricamente estará da função de distribuição a partir da qual as amostras empíricas são coletadas. Usando essa desigualdade, podemos desenhar intervalos de confiança (ICs) em torno de (ECDF). Mas esses ICs terão distâncias iguais em todos os pontos do ECDF.F^n(x)

Gostaria de saber, existe outra maneira de construir um IC em torno do ECDF?

Lendo sobre estatísticas ordenadas , descobrimos que a distribuição assintótica da estatística ordenada é a seguinte:

fórmula do hiperlink

Agora, primeiro, o que significa o índice com esses símbolos?np

Pergunta principal: somos capazes de usar esse resultado, juntamente com o método delta (veja abaixo), para fornecer ICs para o ECDF. Quero dizer, o ECDF é uma função da estatística ordenada, certo? Mas, ao mesmo tempo, o ECDF é uma função não paramétrica, então isso é um beco sem saída?

Sabemos que e E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

Espero ter certeza do que estou recebendo aqui e agradecer qualquer ajuda.

EDIT :

Método Delta: se você tiver uma sequência de variáveis ​​aleatórias satisfazendoXn

insira a descrição da imagem aqui,

e e são finitos, o seguinte é satisfeito:θσ2

insira a descrição da imagem aqui,

para qualquer função g que satisfaça a propriedade que existe, tem um valor diferente de zero e é polinomialmente delimitada com a variável aleatória (quote wikipedia)g(θ)

Erosennin
fonte
1
np significa arredondado para o próximo número inteiro. seria o maior observação -ésimo (a -ésima ordem estatística ); juntar esses dois bits de notação (deixe ) fornece . npX(i)iii=npX(np)
Glen_b -Reinstala Monica 14/11
Está bem! E p é igual a , de forma que np é igual a i ? F^n(x)
Erosennin
1
Veja dentro-r.org/packages/cran/sfsmisc/docs/ecdf.ksCI para uma solução em R.
kjetil b halvorsen
Então, sua maneira de calcular os ICs é baseada na estatística Kolmogorov-Smirnov, se eu entendi as coisas corretamente? Eu posso investigar isso também! Obrigado!
Erosennin
1
Se bem me lembro, o uso da estatística KS daria a você a banda Dvoretzky–Kiefer–Wolfowitz.band. A afirmação que você tem não diz que você escolhe para fazer . Se você tomar algum terá um resultado assintótico que citou; isso envolverá o limite de uma sequência de valores, e você não precisa que seja inteiro para nenhum deles. pnp=ipnnp
Glen_b -Reinstate Monica

Respostas:

4

Não vejo como usar o método delta, mas ...

Lendo sobre a convergência da função de distribuição empírica , lemos que o teorema do limite central nos fornece:

n(F^n(x)F(x))N(0,F(x)(1F(x)))

Podemos usar isso para criar ICs variados em torno de cada :F^n(x)

F^n(x)±1.96F^n(x)(1F^n(x))n ,

como , é a nossa melhor estimativa de .F n ( x ) F ( x )E(F^n(x))=F(x)F^n(x)F(x)

Usando o seguinte código R:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Nós temos:

Azul = faixas KWD, vermelho = faixas CLT

Vemos que as faixas vermelhas (do método CLT) nos dão faixas de confiança mais estreitas.

EDIT : Como o @Kjetil B Halvorsen apontou - esses dois tipos de bandas são tipos diferentes. Eu tinha @Glen_b explicar exatamente o que ele quis dizer:

Tipos muito diferentes de faixas de confiança. Com uma banda de confiança pontual, você esperaria vários pontos fora da banda, mesmo que fosse a distribuição da qual os dados foram extraídos. Com bandas simultâneas você não faria. Se você tem uma banda de 95% no sentido dos ponteiros do relógio, em média 5% dos pontos para a distribuição correta estariam fora das bandas. Com bandas simultâneas, há uma chance de 5% de que o ponto com o maior desvio esteja fora.

Muito obrigado a ambos!

Erosennin
fonte
Por que esse caminho não é preferido do que usar a desigualdade DKW - ou a estatística KS? Eu nunca vi ninguém construir as bandas de confiança desta forma antes ...
Erosennin
1
Ele só dá bandas de confiança individualmente, para cada , não simultaneamentex
b Kjetil Halvorsen
Por "it", suponho que você quer dizer "caminho da CLT". E, por exemplo, o DKW também não fornece nada simultaneamente, apenas indica a distância "máxima" e a usa como banda de confiança para cada ponto x. E da mesma forma para KS. ϵ
Erosennin
Sim, e usando o máximo dessa maneira, eles obtêm uma faixa de confiança válida simultaneamente.
Kjetil b halvorsen
2
Discussão interessante aqui. Adicionei os intervalos CDF pontuais à Wikipedia e algumas discussões sobre as diferenças entre esses métodos. Também atualizei a página DKW para discutir intervalos mais especificamente. Dê uma olhada e sinta-se à vontade para atualizar as páginas ou me PM no site en.wikipedia.org/wiki/… en.wikipedia.org/wiki/…
Bscan