Diferença entre histograma e pdf?

18

Se queremos ver visivelmente a distribuição de dados contínuos, qual dentre o histograma e o pdf deve ser usado?

Quais são as diferenças, não em termos de fórmula, entre histograma e pdf?

csgillespie
fonte
Você poderia esclarecer se esta pergunta se refere a dados (cuja distribuição pode ser representada por um histograma) ou a construções teóricas (como um pdf, que descreve uma distribuição de probabilidade).
whuber
4
Mas de onde vem o pdf? Por definição, um pdf descreve uma distribuição de probabilidade teórica. Você talvez quis dizer o edf (função de distribuição empírica)?
whuber

Respostas:

22

Para esclarecer o ponto Dirks:

Digamos que seus dados sejam uma amostra de uma distribuição normal. Você pode construir o seguinte gráfico:

texto alternativo

A linha vermelha é a estimativa da densidade empírica, a linha azul é o pdf teórico da distribuição normal subjacente. Observe que o histograma é expresso em densidades e não em frequências aqui. Isso é feito para fins de plotagem, em geral as frequências são usadas nos histogramas.

Então, para responder à sua pergunta: use a distribuição empírica (isto é, o histograma) se desejar descrever sua amostra e o pdf se desejar descrever a distribuição subjacente hipotética.

O gráfico é gerado pelo seguinte código em R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
fonte
qual é a diferença entre frequência e densidade?
Lakshay
2
A frequência do @Lakshay é contada. Todas as frequências somadas são iguais ao número de observações. Densidade é a abreviação de PDF (função de densidade de probabilidade), que é um proxy da probabilidade de ter um determinado valor. A área sob as somas PDF para 1.
Joris Meys
13

Um histograma é uma estimativa da idade pré-computador de uma densidade. Uma estimativa de densidade é uma alternativa.

Atualmente, usamos os dois, e há uma rica literatura sobre quais padrões se deve usar.

Um pdf, por outro lado, é uma expressão de forma fechada para uma determinada distribuição. Isso é diferente de descrever seu conjunto de dados com uma densidade ou histograma estimado .

Dirk Eddelbuettel
fonte
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

Não existe uma regra rígida e rápida aqui. Se você conhece a densidade da sua população, um PDF é melhor. Por outro lado, geralmente lidamos com amostras e um histograma pode transmitir algumas informações que uma densidade estimada encobre. Por exemplo, Andrew Gelman destaca este ponto:

Variações no histograma

Um benefício importante de um histograma é que, como um gráfico de dados brutos, ele contém as sementes de sua própria avaliação de erro. Ou, dito de outra maneira, a irregularidade de um histograma ligeiramente suavizado executa um serviço útil ao indicar visualmente a variabilidade da amostra. É por isso que, se você observar os histogramas em meus livros e artigos publicados, eu quase sempre uso muitas caixas. Também quase nunca gosto das estimativas de densidade de kernel que as pessoas às vezes usam para exibir distribuições unidimensionais. Prefiro ver o histograma e saber onde estão os dados.

ars
fonte
3
Devo admitir que nunca entendi completamente por que Gelman defende o uso de histograma com pequena largura de caixa; por que não usar gráficos de stripchart ou dados brutos com estimativas de densidade de kernel sobrepostas, que transmitem muito melhor a distribuição empírica dos dados observados?
chl
2
@chl: É claro que existem outros bons métodos de visualização para ter uma noção da variabilidade da amostra. Mas, na comparação mais estreita do histograma v. Pdf em discussão aqui, acho que seu argumento está bem fundamentado.
Ars
1
esse é um bom link, assim como os artigos discutidos lá. Mas, essa abordagem vale para simulações; nesse caso, estamos realmente tentando estimar uma densidade?
David LeBauer
1

Histograma de frequência relativa ( discreto )

  • O eixo 'y' é contagem normalizada
  • O eixo 'y' é uma probabilidade discreta para esse compartimento / intervalo específico
  • As contagens normalizadas somam 1

Histograma de densidade ( discreto )

  • O eixo 'y' é o valor da densidade ('Contagem normalizada' dividida por 'largura da bandeja')
  • As áreas da barra somam 1

Função Densidade de Probabilidade PDF ( contínuo )

  • PDF é uma versão contínua de um histograma, pois as caixas de histograma são discretas
  • a área total sob a curva se integra a 1

Essas referências foram úteis :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Distribuição_da_probabilidade contínua do site acima

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
fonte