Por que ecdf usa uma função step e não uma interpolação linear?

As funções empíricas do CDF são geralmente estimadas por uma função de etapa. Existe uma razão para que isso seja feito dessa maneira e não usando uma interpolação linear? A função step possui propriedades teóricas interessantes que nos fazem preferir?

Aqui está um exemplo dos dois:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf Tal Galili
fonte

Relacionadas ...................................

"... estimado por uma função escalonada" esconde um equívoco sutil: o ECDF não é meramente estimado por uma função escalonada; que é uma tal função, por definição. É idêntico ao CDF de uma variável aleatória. Especificamente, dada qualquer sequência finita de números

, defina um espaço de probabilidade

com

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

discreto e

S

$\mathfrak{S}$

P

$\mathbb{P}$ uniforme. Seja

a variável aleatória que atribui

. O ECDF é a CDF de . Essa enorme simplificação conceitual é um argumento convincente para a definição.

X

$X$

x_{i}

$x_i$

i

$i$ $X$

whuber

Respostas:

É por definição.

A função de distribuição empírica de um conjunto de observações é definida por $(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

Onde $\#$ é a cardinalidade definida. Esta é, por natureza, uma função de etapa. Ele converge para o CDF real quase certamente .

$P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$ .

AlexR
fonte

Obrigado Alex. Então, existe outro nome para a função que escrevi? (porque eu acho que também converge para a CDF real)

Tal Galili

@TalGalili Não. Considere uma distribuição de Bernoulli. Seu ecdf2 não convergirá neste caso. Você poderia chamá-lo de um ecdf suavizado. Eu suspeito que irá convergir para o CDF real sse o CDF real não tem pontos com probabilidade diferente de zero, exceto para os pontos extremos (onde você não liso)

AlexR

@AlexR, você pode editar sua resposta para adicionar esse comentário, já que distribuições discretas são a razão de tal definição - portanto, ele responde à pergunta "por que".

Tim

@ Tim Feito.

${}{}$

precisa saber é

Obrigado. Existe uma maneira de definir uma função empírica contínua que convergiria para a função step, mas seria totalmente monótona (isto é: sem "saltos" acentuados)?

Tal Galili