Como entender a definição da função de distribuição empírica

Estou lendo o All of Nonparametric Statistics , de Larry Wasserman. Na página 12, ele define a função de distribuição empírica como:

A função de distribuição empírica $\hat{F_n}$ é o CDF que coloca massa $\frac{1}{n}$ em cada ponto de dados $X_i$ . Formalmente,

\hat{F_{n}} (x) = \frac{1}{n} \sum_{i = 1}^{n} I (X_{i} \leq x)

$\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$

Onde

I (X_{i} \leq x) = {\begin{matrix} 1 & i f X_{i} \leq x \\ 0 & i f X_{i} > x \end{matrix}

$I(X_i\le x)=\left\{\begin{matrix} 1& if\ X_i \le x\\ 0 & if \ X_i>x \end{matrix}\right.$

Minhas perguntas são:

Porque é $\frac{1}{n}$ chamado massa?
O CDF coloca massa $\frac{1}{n}$ para cada ponto de dados $X_i$ , então, pelo meu entendimento, deve ser $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ .

Porque é $\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$ ? Eu acho que essa fórmula coloca massa $\frac{1}{n}$ em cada função indicadora $I(X_i \le x)$ mas não $X_i$ .

Qual é o significado de "coloca" algo "em cada ponto de dados"?

distributions nonparametric Norte profundo
fonte

Porque é $\frac{1}{n}$ chamado massa?

O termo "massa" refere-se a uma quantidade de probabilidade em um único ponto discreto, distinto de "densidade" em relação às distribuições contínuas.

O CDF coloca massa $\frac{1}{n}$ para cada ponto de dados $X_i$ , então, pelo meu entendimento, deve ser $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ .

Isso não é uma pergunta, é uma afirmação - mas seu entendimento, dado que há um erro de várias maneiras ao mesmo tempo, para que eu possa discutir isso.

Primeiro a expressão $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ é realmente uma expressão para a média da amostra (como uma variável aleatória) - significa literalmente calcular a média dos valores. Presumo que você pretendeu escrever uma expressão para a função de probabilidade empírica aqui - mas lembre-se de que devemos lidar com uma função de distribuição , não com a função de probabilidade, portanto, é necessário encontrar a proporção da função empírica. probabilidade que está no ou à esquerda de cada valor possível de $x$ - é assim que uma função de distribuição representa probabilidade 1 / n em cada ponto:

Essas são duas representações diferentes do mesmo objeto subjacente. Você pode ver que o pmf empírico mostra uma massa de 1 / n em cada valor observado, enquanto o ecdf mostra uma altura que aumenta em 1 / n em cada valor observado (e que isso corresponde a 1 / n vezes a soma das funções do indicador você mencionou)

Qual é o significado de "coloca" algo "em cada ponto de dados"?

Não sei exatamente o que causa a dificuldade aqui, as palavras assumem essencialmente seus significados comuns; veja as imagens acima que mostram uma proporção de $1/n$ em cada valor observado $x_i$ ; se você tratar o epmf e o ecdf como um pmf e um cdf respectivamente, essas são probabilidades. Possivelmente está tratando $\hat{F}$ como uma entidade ativa (que pode "colocar" coisas em algum lugar) que está confundindo você - seria mais fácil entender se dissesse "tem" em vez de "coloca"? Se isso não ajudar, você precisará esclarecer o que precisa ser explicado lá.

Glen_b -Reinstate Monica
fonte

Como entender a definição da função de distribuição empírica

Respostas: