Como entender a definição da função de distribuição empírica

7

Estou lendo o All of Nonparametric Statistics , de Larry Wasserman. Na página 12, ele define a função de distribuição empírica como:

A função de distribuição empírica Fn^ é o CDF que coloca massa 1n em cada ponto de dados Xi. Formalmente,

Fn^(x)=1ni=1nI(Xix)

Onde

I(Xix)={1if Xix0if Xi>x

Minhas perguntas são:

  1. Porque é 1n chamado massa?

  2. O CDF coloca massa 1n para cada ponto de dados Xi, então, pelo meu entendimento, deve ser 1nX1+1nX2+...+1nXn.

Porque é Fn^(x)=1ni=1nI(Xix)? Eu acho que essa fórmula coloca massa1n em cada função indicadora I(Xix) mas não Xi.

Qual é o significado de "coloca" algo "em cada ponto de dados"?

Norte profundo
fonte

Respostas:

9

Porque é 1n chamado massa?

O termo "massa" refere-se a uma quantidade de probabilidade em um único ponto discreto, distinto de "densidade" em relação às distribuições contínuas.

O CDF coloca massa 1n para cada ponto de dados Xi, então, pelo meu entendimento, deve ser 1nX1+1nX2+...+1nXn.

Isso não é uma pergunta, é uma afirmação - mas seu entendimento, dado que há um erro de várias maneiras ao mesmo tempo, para que eu possa discutir isso.

Primeiro a expressão 1nX1+1nX2+...+1nXné realmente uma expressão para a média da amostra (como uma variável aleatória) - significa literalmente calcular a média dos valores. Presumo que você pretendeu escrever uma expressão para a função de probabilidade empírica aqui - mas lembre-se de que devemos lidar com uma função de distribuição , não com a função de probabilidade, portanto, é necessário encontrar a proporção da função empírica. probabilidade que está no ou à esquerda de cada valor possível dex - é assim que uma função de distribuição representa probabilidade 1 / n em cada ponto:

função de probabilidade empírica e cdf empírico

Essas são duas representações diferentes do mesmo objeto subjacente. Você pode ver que o pmf empírico mostra uma massa de 1 / n em cada valor observado, enquanto o ecdf mostra uma altura que aumenta em 1 / n em cada valor observado (e que isso corresponde a 1 / n vezes a soma das funções do indicador você mencionou)

Qual é o significado de "coloca" algo "em cada ponto de dados"?

Não sei exatamente o que causa a dificuldade aqui, as palavras assumem essencialmente seus significados comuns; veja as imagens acima que mostram uma proporção de1/n em cada valor observado xi; se você tratar o epmf e o ecdf como um pmf e um cdf respectivamente, essas são probabilidades. Possivelmente está tratando F^como uma entidade ativa (que pode "colocar" coisas em algum lugar) que está confundindo você - seria mais fácil entender se dissesse "tem" em vez de "coloca"? Se isso não ajudar, você precisará esclarecer o que precisa ser explicado lá.

Glen_b -Reinstate Monica
fonte