CDF empírico vs CDF

20

Estou aprendendo sobre a função de distribuição cumulativa empírica. Mas eu ainda não entendo

  1. Por que é chamado de 'empírico'?

  2. Existe alguma diferença entre o CDF empírico e o CDF?

Gammaries
fonte
Há uma explicação simples, direta e elegante em termos de tickets em modelos de caixa : o CDF descreve o que está na caixa original. O ECDF é o que você obtém quando coloca sua amostra (que é um conjunto de tickets retirados da caixa original: os chamados dados "empíricos") em uma caixa vazia.
whuber
Uma coisa a ter em mente é que sua distribuição empírica geralmente é limitada pela maneira como é construída, enquanto o CDF pode não ser. Por exemplo, se você criar um CDF empírico a partir de observações da variável Poisson, o ECDF obtido será limitado pela frequência mais alta observada, enquanto o CDF verdadeiro é ilimitado.
Aksakal

Respostas:

27

Seja X uma variável aleatória.

  • A função de distribuição cumulativa F(x) fornece P(Xx) .
  • Uma função empírica da função de distribuição cumulativa G(x) fornece P(Xx) base nas observações em sua amostra.

A distinção é qual medida de probabilidade é usada. Para o CDF empírico, você usa a medida de probabilidade definida pelas contagens de frequência em uma amostra empírica.

Exemplo simples (troca de moeda):

Seja X uma variável aleatória que denota o resultado de um único lançamento de moeda, onde X=1 indica cara e X=0 0 indica coroa.

O CDF para uma moeda justa é dado por:

F(x)={0 0para x<0 012para 0 0x<11para 1x

Se você inverte 2 cabeças e 1 cauda, ​​o CDF empírico seria:

G(x)={0 0para x<0 023para 0 0x<11para 1x

O CDF empírica iria refletir que, em sua amostra, 2/3 dos seus flips eram cabeças.

Outro exemplo ( F é CDF para distribuição normal):

Seja X uma variável aleatória distribuída normalmente com média 0 0 e desvio padrão 1 .

O CDF é dado por:

F(x)=-x12πe-x22

x1<x2<x3

G(y)={0 0para y<x113para x1y<x223para x2y<x31para x3y

Com sorteios suficientes de IID (e certas condições de regularidade são atendidas), o CDF empírico convergiria para o CDF subjacente da população.

Matthew Gunn
fonte
12

Existe alguma diferença entre o CDF empírico e o CDF?

Sim, eles são diferentes. Um cdf empírico é um cdf adequado, mas os cdfs empíricos sempre serão discretos, mesmo quando não extraídos de uma distribuição discreta, enquanto o cdf de uma distribuição pode ser outras coisas além de discreto.

Se você tratar uma amostra como se fosse uma população de valores, cada um igualmente provável (ou seja, coloque a probabilidade 1 / n em cada observação), o cdf dessa distribuição seria o ECDF dos dados.

Por que é chamado de 'empírico'?

É uma estimativa da população cdf com base na amostra; especificamente, se você tratar as proporções da amostra em cada valor de dados distinto e tratá-lo como se fosse uma probabilidade na população, receberá o ECDF.

Empírico tem um significado parecido com "pela observação, e não pela teoria", e é exatamente isso que significa neste caso ... usar as observações para determinar a função de distribuição.

Glen_b -Reinstate Monica
fonte
10

O CDF empírico é construído a partir de um conjunto de dados real (no gráfico abaixo, usei 100 amostras de uma distribuição normal padrão). O CDF é uma construção teórica - é o que você veria se pudesse colher infinitas amostras.

O CDF empírico geralmente se aproxima muito bem do CDF, especialmente para amostras grandes (de fato, existem teoremas sobre a rapidez com que converge para o CDF à medida que o tamanho da amostra aumenta).

CDF empírico vs CDF

Chris Taylor
fonte
10

Empírico é algo que você constrói a partir de dados e observações. Por exemplo, suponha que você queira saber sobre a distribuição da altura das pessoas em um país. Você começa medindo pessoas e cria um histograma que pode ser aproximado a uma distribuição. Então você calcula o CDF empírico.

Se você estiver usando uma distribuição estatística (uma fórmula determinística que fornece exatamente a mesma saída com os mesmos parâmetros), também poderá calcular seu CDF.

N(μ=1,75 m,σ=0,1 m)

Berkorbay
fonte
Existe uma medida de confiança empregada que expresse a probabilidade de que o CDF e o CDF empírico descrevam a mesma população no limite de todas as amostragens experimentais no mundo? Isso parece ter aplicação nas pesquisas eleitorais, por exemplo. (embora talvez não, já que a saída não é estritamente descritível como uma função ...)
BenPen
3

Segundo o Dictionary.com , as definições de "empírico" incluem:

derivado de ou guiado por experiência ou experimento.

Portanto, o CDF empírico é o CDF que você obtém dos seus dados. Isso contrasta com o CDF teórico (geralmente chamado de "CDF"), obtido a partir de um modelo estatístico ou probabilístico, como a distribuição Normal.

Waldir Leoncio
fonte